BCCWJテキスト抽出 bccwj2text概要「現代日本語書き言葉均衡コーパス(BCCWJ)」の全サンプルのテキストをBCCWJ-DVD版から抽出します。最新バージョンはbccwj2text 1.50です。(2012/11/28) [ お知らせ ] ◇ BCCWJの特性と使用上の注意について述べた拙文2件についてはこちらをご覧ください。
インストールbccwj2textを使うには次の2種類の準備を行います。1) bccwj2textのインストール 次のリンクをクリックし、表示される「ファイルのダウンロード」ダイアログで[実行]ボタンを押します。環境によって[実行]ボタンが出ない場合は、まずファイルをディスク上に保存し、それをダブルクリックして実行します。(実行時、セキュリティの警告には「実行する」や「はい」などで応じてください。)続いて表示される「bccwj2textのインストール」のダイアログで[OK]ボタンを押すと、デスクトップにアイコンが作られます。(インストール後に「このプログラムは正しくインストールされなかった可能性があります」というメッセージが出ることがありますが、問題なくインストールされています。「このプログラムは正しくインストールされました」で応じてください。) bccwj2textのインストール(公開停止) ※公開再開時期は未定です。この件に関わる連絡・質問はお控えください。 ![]()
2つのファイルをインターネットで入手してC:¥Windows¥System32(64bit版Windowsの場合はC:¥Windows¥SysWOW64)にコピーします。
用法次の図の下にある説明をよく読んでからBCCWJ-DVD版のDisk1をDVDドライブにセットし、bccwj2textのアイコンをダブルクリックします。DVDドライブ名の問い合わせに応じたあとは処理が終わるのを待つだけです。![]()
補足説明BCCWJ-DVD版や抽出されたテキストの譲渡や貸与はできません。国立国語研究所との契約に従ってください。テキストはBCCWJ-DVD版のM-XMLディレクトリに収められたXMLファイルを用いて抽出します。BCCWJの構成やM-XMLディレクトリのデータの位置付けについてはDisk1のディレクトリDOCにあるマニュアルを参照してください。 処理の基本方針は原典のテキストの復元です。それは、中納言で使われている加工テキスト──例えば、「Word 2003」は「Word 二千三」に書き換えられている──ではなく、少納言で使われている未加工のテキストを復元するということです。本ソフトウェアによるテキストの抽出は単純な一律処理ではなく、加工されたデータに基づいて加工前の状態を推定・復元する処理や、テキストとしての利用しやすさを目的とした形式上の調整を伴います。BCCWJ-DVD版から本ソフトウェアの異なるバージョン、あるいは、その他の方法によって生成したテキストはそれぞれに不一致を含むことに注意してください。 本ソフトウェアのバージョンごとにテキストの品質は向上しています。常に最新バージョンで処理し直すことをお勧めします。処理に用いたbccwj2textのバージョンはbccwj2text.logに記録されています。 テキスト抽出後は、中納言の検索結果に含まれる用例の原文テキストを参照することが可能になります。こちらをご覧ください。 拙作日本語KWIC索引生成ソフトウェアKWICでの検索にはShift_JISのテキストを使います。定義ファイルでコーパスの所在を「パス=C:¥corpora¥BCCWJ_sjis」「パス=C:¥corpora¥BCCWJ_sjis¥LB」などのように指定します。 テキストの数が多いために、出力ディレクトリの内部を参照しようとすると非常に長いあいだ待たされることがあります。必要もなくテキストのディレクトリを開くことはやめておくのが無難です。また、OSあるいはその他のソフトウェアにディレクトリ内部の先読みを許している場合は、テキストのディレクトリを開かなくても一時的にパソコンの動作が重くなることがある可能性があります。 拙作関連ソフトウェア
改訂履歴1.00 作成(2012/8/16)1.10 生成テキストの高品質化(改行ほか)(2012/8/18) 1.20 生成テキストの高品質化(数表現)、処理の高速化(2012/8/24) 1.30 生成テキストの高品質化(数表現)(2012/8/29) 1.40 生成テキストの高品質化(改行)(2012/9/5) 1.50 生成テキストに高品質化(文字化けの解消)(2012/11/28) 研究にはまず影響しない程度の問題ですが、万全を期すには処理し直してください。
ソフトウェアのメニューに戻る |