BCCWJ N-gram分析 BNAnalyzer概要中納言による「現代日本語書き言葉均衡コーパス(BCCWJ)」または「日本語歴史コーパス」の検索結果をもとに、検索語の前後にどのような表現がよく現れるかを分析します。具体的には、検索語の直前・直後のN-gram(N個の短単位または長単位の連続)および検索語を前後からはさむN-gramの組の頻度順の一覧を作成し、エクセルで表示します。語句の用法やコロケーションの考察・分析を容易にします。最新バージョンはBNAnalyzer 1.80です。(2013/6/26) [ お知らせ ] ◇ BCCWJの特性と使用上の注意について述べた拙文2件についてはこちらをご覧ください。
インストール次のリンクをクリックし、表示される「ファイルのダウンロード」ダイアログで[実行]ボタンを押します。環境によって[実行]ボタンが出ない場合は、まずファイルをディスク上に保存し、それをダブルクリックして実行します。(実行時、セキュリティの警告には「実行する」や「はい」などで応じてください。)続いて表示される「BNAnalyzerのインストール」のダイアログで[OK]ボタンを押すと、デスクトップにアイコンが2つ作られます。それぞれを単純版、circumcollocate版と呼びます。(インストール後に「このプログラムは正しくインストールされなかった可能性があります」というメッセージが出ることがありますが、問題なくインストールされています。「このプログラムは正しくインストールされました」で応じてください。)BNAnalyzerのインストール(公開停止) ※公開再開時期は未定です。この件に関わる連絡・質問はお控えください。 ![]()
用法中納言の検索結果から検索語の前後のN-gramの一覧を得るには次のようにします。1) 中納言(日本語歴史コーパスはこちら)で[検索結果のダウンロード]によって検索結果をディスク上に保存 2) そのファイルをBNAnalyzerのアイコンの上にドラッグ&ドロップ
![]() この一覧は、「なかなか」の後には「の」「難しい」「いい」(1-gram)、「でき-ない」「の-もの」「うまく-いか」(2-gram)、「うまく-いか-ない」「出-て-こ」「思う-よう-に」(3-gram)などの表現がよく現れることを示しています。 circumcollocate版も用法は同じです。次の図は、語彙素「惜しむ」の検索結果を分析して得られる結果の一部です。 ![]() この一覧の例えば左端の列からは、「惜しむ」が「別れを惜しん{で/だ}」「{寸暇/時間}を惜しんで」「{努力/協力}を惜しまない」「{骨身/手間}を惜しまず」などの形でよく使われることを知ることができます。circumcollocateは、「寸暇を惜しんで」「努力を惜しまない」「骨身を惜しまず」のように「惜しむ」を前後からはさむように現れる2表現の慣習的な組合せを、「惜しむ」の1つの共起表現として捉えたものです(circum-は取り囲む、collocateは共起表現の意)。
補足説明BCCWJの短単位・長単位については国立国語研究所コーパス開発センターのWebサイトに簡単な解説と詳細な規程集が掲載されています。N-gramの集計に疑問がある場合は検索結果の内容を確認してください。そこに何らかの理由があるはずです。特に、中納言で検索対象を指定しないでBCCWJ全体を検索すると、Yahoo!ブログなどのサブコーパスにおけるデータの重複により一般性の低いN-gramが多数回現れ、奇妙な分析結果になることがよくあります。 ![]() ![]() これらの例に見る「見つけたいならYahoo!縁結び」や「あなたの気持ちに殉じて自分は」などの高頻度N-gramは、ブログ記事の書き手によってその都度書かれたものではなく、機械生成ないし複製によるものです。 BCCWJ使用時に、均衡性の考慮から明確な基準に基づいて収集された出版物のデータに、Yahoo!ブログなどのデータを単純に加えて使うのは、そもそも“均衡”コーパスのまっとうな用法ではありません。機械生成などの“用例”をそれと知らず通常の用例と同列に扱ってしまうことのないよう、中納言では検索対象(少納言ではメディア/ジャンル)を目的に応じて適切に指定したうえで検索する必要があります。話しことばの書き起こしであり、やはり異質性の高い国会会議録のデータも、“書き言葉”コーパスの他の部分との不用意な併用は避けるべきでしょう。 詳しくは「お知らせ」のところにリンクしている拙文をご覧ください。 拙作関連ソフトウェア
改訂履歴1.00 作成(2012/7/5)1.10 circumcollocate版を追加(2012/7/22) 1.20 Unicode対応、非日本語版Windows対応、ドラッグ&ドロップ対応(2012/7/25) 1.30 検索結果のzipファイルの解凍を不要にした(2012/7/28) 1.40 中納言の改訂(1.0.5)に対応(2012/11/6) 1.50 日本語歴史コーパスに対応(2013/2/23) 1.60 中納言の改訂(1.1.0)に対応、zipファイル解凍機能を廃止(2013/5/31) zipファイルを扱うdllのコピーが不要になりました。 1.70 台湾繁体版Windowsにおける問題を解決(2013/6/8) 1.80 Excel 2013の環境における問題を解決(2013/6/26)
ソフトウェアのメニューに戻る |