BCCWJテキスト抽出 bccwj2text



概要

 「現代日本語書き言葉均衡コーパス(BCCWJ)」の全サンプルのテキストをBCCWJ-DVD版から抽出します。

 最新バージョンはbccwj2text 1.50です。(2012/11/28)

  [ お知らせ ]
  ◇ BCCWJの特性と使用上の注意について述べた拙文2件についてはこちらをご覧ください。
  • 本ソフトウェアは無保証です。自己責任でご使用ください。
  • 本ソフトウェアはWindows上で動作します。作成と動作確認は日本語Windows XPで行っています。おそらく日本語版以外のWindowsでも動くと思いますが、事前にこちらの手順に従って設定を行う必要があります。
  • 本ソフトウェアの作成にはRuby 1.8.7(http://www.ruby-lang.org/)とExerb 5.3.0(http://exerb.sourceforge.jp/)を使用させていただいています。
  • 本ソフトウェアは法的に保護された著作物です。改変・転載・再配布等はご遠慮ください。

インストール

 bccwj2textを使うには次の2種類の準備を行います。

1) bccwj2textのインストール
 次のリンクをクリックし、表示される「ファイルのダウンロード」ダイアログで[実行]ボタンを押します。環境によって[実行]ボタンが出ない場合は、まずファイルをディスク上に保存し、それをダブルクリックして実行します。(実行時、セキュリティの警告には「実行する」や「はい」などで応じてください。)続いて表示される「bccwj2textのインストール」のダイアログで[OK]ボタンを押すと、デスクトップにアイコンが作られます。(インストール後に「このプログラムは正しくインストールされなかった可能性があります」というメッセージが出ることがありますが、問題なくインストールされています。「このプログラムは正しくインストールされました」で応じてください。)

   bccwj2textのインストール(公開停止)
   ※公開再開時期は未定です。この件に関わる連絡・質問はお控えください。

      
  • リンクをクリックした後の手順はブラウザによって異なる可能性があります。また、最近のブラウザやセキュリティソフトはソフトウェアをスムーズにインストールさせてくれないことがあります。必要に応じて適宜対処してください。
  • アンインストールはアイコンをごみ箱に移すだけです。
2) z***1.dll、***iconv-2.dllのコピー***はlibで置き換えて読みます)
 2つのファイルをインターネットで入手してC:¥Windows¥System32(64bit版Windowsの場合はC:¥Windows¥SysWOW64)にコピーします。
  • 当該の2ファイルがすでに利用可能な状態になっている場合はあらためてコピーする必要はありません。
  • コピーには多少の処置を要する可能性があり、また、身元不詳のダウンロードサイトの利用は危険を伴います。自信のない方にはこちらの方法をお勧めします。

用法

 次の図の下にある説明をよく読んでからBCCWJ-DVD版のDisk1をDVDドライブにセットし、bccwj2textのアイコンをダブルクリックします。DVDドライブ名の問い合わせに応じたあとは処理が終わるのを待つだけです。

     
  • ドライブCに2ギガバイト強の空き領域が必要です。
  • 処理に要する時間は環境によりますが、少なくとも小一時間かかります。途中で電源の切断、システムのスタンバイや再起動などが起きないよう注意を要します。処理の一時停止と再開はできませんが、コマンドプロンプト(上図の黒いウィンドウ)を閉じることで処理を中止することは可能です。
  • テキストは2つのディレクトリC:¥corpora¥BCCWJ_utf8、C:¥corpora¥BCCWJ_sjisにそれぞれUTF-8、Shift_JISの文字コードで出力します。いずれのディレクトリも13のサブディレクトリPB、PM、PN、LB、OW、OT、OP、OB、OC、OY、OV、OL、OMに区分されます。テキストのファイル名はサンプルIDです(拡張子なし)。
  • 生成されるテキストの数は各文字コードにつき172,675件、ファイルサイズの総計は約1ギガバイトです。加えて、BCCWJ_utf8、BCCWJ_sjisの各ディレクトリにbccwj2text.logというファイル名で処理記録を作成します。
  • Shift_JISのテキストでは一部の記号(例:「♥」「☎」)や特殊な漢字が文字化けないし消失します。
  • 意図しない上書きを防ぐため、すでにC:¥corpora¥BCCWJ_utf8、C:¥corpora¥BCCWJ_sjisのディレクトリが存在するときは処理を行いません。処理するにはあらかじめ両ディレクトリを消去するか、その名前を変更してください。
  • 処理終了後はデスクトップ上のbccwj2textのアイコンは不要です。消去してください。

補足説明

 BCCWJ-DVD版や抽出されたテキストの譲渡や貸与はできません。国立国語研究所との契約に従ってください。

 テキストはBCCWJ-DVD版のM-XMLディレクトリに収められたXMLファイルを用いて抽出します。BCCWJの構成やM-XMLディレクトリのデータの位置付けについてはDisk1のディレクトリDOCにあるマニュアルを参照してください。

 処理の基本方針は原典のテキストの復元です。それは、中納言で使われている加工テキスト──例えば、「Word 2003」は「Word 二千三」に書き換えられている──ではなく、少納言で使われている未加工のテキストを復元するということです。本ソフトウェアによるテキストの抽出は単純な一律処理ではなく、加工されたデータに基づいて加工前の状態を推定・復元する処理や、テキストとしての利用しやすさを目的とした形式上の調整を伴います。BCCWJ-DVD版から本ソフトウェアの異なるバージョン、あるいは、その他の方法によって生成したテキストはそれぞれに不一致を含むことに注意してください。

 本ソフトウェアのバージョンごとにテキストの品質は向上しています。常に最新バージョンで処理し直すことをお勧めします。処理に用いたbccwj2textのバージョンはbccwj2text.logに記録されています。

 テキスト抽出後は、中納言の検索結果に含まれる用例の原文テキストを参照することが可能になります。こちらをご覧ください。

 拙作日本語KWIC索引生成ソフトウェアKWICでの検索にはShift_JISのテキストを使います。定義ファイルでコーパスの所在を「パス=C:¥corpora¥BCCWJ_sjis」「パス=C:¥corpora¥BCCWJ_sjis¥LB」などのように指定します。

 テキストの数が多いために、出力ディレクトリの内部を参照しようとすると非常に長いあいだ待たされることがあります。必要もなくテキストのディレクトリを開くことはやめておくのが無難です。また、OSあるいはその他のソフトウェアにディレクトリ内部の先読みを許している場合は、テキストのディレクトリを開かなくても一時的にパソコンの動作が重くなることがある可能性があります。


拙作関連ソフトウェア

 日本語KWIC索引生成ソフトウェア KWIC 任意の日本語テキストから語句を検索し、KWIC索引を生成
 KWIC索引のソート sortKWIC KWIC索引をソート
 KWIC索引の原文参照 Source Text Retriever   KWIC索引の用例の原文テキストを参照
 KWIC索引の引用 quoteKWIC KWIC索引の用例を論文などへの引用に適した体裁でWordに格納
 BCCWJ N-gram分析 BNAnalyzer 中納言の検索結果に基づいて表現の共起傾向を分析
 BCCWJテキスト抽出 bccwj2text BCCWJ-DVD版からコーパス全サンプルのテキストを抽出
 日本語用例検索サイト 青空文庫所収の文学作品約3,400件から日本語の用例を検索
 日本語研究文献検索サイト 日本語研究文献を検索し、結果を見やすい書式で出力
 文献ソートサイト 文献リストを著者名または刊行年に基づいて並べ替える
 例文番号の付け直し Renumber 言語学の論文の例文番号を付け直す(Word用)


改訂履歴

1.00 作成(2012/8/16)
1.10 生成テキストの高品質化(改行ほか)(2012/8/18)
1.20 生成テキストの高品質化(数表現)、処理の高速化(2012/8/24)
1.30 生成テキストの高品質化(数表現)(2012/8/29)
1.40 生成テキストの高品質化(改行)(2012/9/5)
1.50 生成テキストに高品質化(文字化けの解消)(2012/11/28)
    研究にはまず影響しない程度の問題ですが、万全を期すには処理し直してください。
  • 環境によって処理が正しく行われない場合、可能であればソフトウェアを修正します。問題点とWindowsのバージョンなどをお知らせください。

 ソフトウェアのメニューに戻る