KWIC索引のソート sortKWIC



概要

 日本語のKWIC索引をソート(並べ替え)してエクセルに格納します。語句の用法の観察・分析を容易にします。次の3種類のKWIC索引を処理することができます。BCCWJは「現代日本語書き言葉均衡コーパス」のことです。

   ①少納言(BCCWJ)または中納言(BCCWJ、日本語歴史コーパス)で画面上に表示された検索結果
   ②中納言(BCCWJ、日本語歴史コーパス)でダウンロードした検索結果
   ③一般のタブ区切り形式のKWIC索引

 最新バージョンはsortKWIC 3.40です。(2013/11/6)

  [ お知らせ ]
  ◇ BCCWJの特性と使用上の注意について述べた拙文2件についてはこちらをご覧ください。
  ◇ BCCWJ-DVD版を使って用例の原文テキストを参照できるようになりました。こちらをご覧ください。
  • 本ソフトウェアは無保証です。自己責任でご使用ください。
  • 本ソフトウェアはエクセルのインストールされたWindows上で動作します。作成とメインの動作確認は日本語版Windows XP+Excel 2003で行い、Windows Vista/7/8、Excel 2007/2010/2013の環境でも動作を確認しています。英語、簡体中文、繁体中文(台湾)の各版のWindows XPでの動作も確認しています。
  • 英語版Windowsの場合はこちらの手順に従って設定を行う必要があります。また、Japanese Language Packの追加を要する可能性があります。
  • 本ソフトウェアの作成にはRuby 1.8.7(http://www.ruby-lang.org/)とExerb 5.3.0(http://exerb.sourceforge.jp/)を使用させていただいています。
  • 本ソフトウェアは法的に保護された著作物です。改変・転載・再配布等はご遠慮ください。

インストール

 次のリンクをクリックし、表示される「ファイルのダウンロード」ダイアログで[実行]ボタンを押します。環境によって[実行]ボタンが出ない場合は、まずファイルをディスク上に保存し、それをダブルクリックして実行します。(実行時、セキュリティの警告には「実行する」や「はい」などで応じてください。)続いて表示される「sortKWICのインストール」のダイアログで[OK]ボタンを押すと、デスクトップにアイコンが2つ作られます。それぞれを通常版、フルデータ版と呼びます。(インストール後に「このプログラムは正しくインストールされなかった可能性があります」というメッセージが出ることがありますが、問題なくインストールされています。「このプログラムは正しくインストールされました」で応じてください。)

   sortKWICのインストール(公開停止)
   ※公開再開時期は未定です。この件に関わる連絡・質問はお控えください。

      

 通常版は、少納言・中納言の検索結果を処理するとき、用例に著者名と書名(日本語歴史コーパスでは作者名、作品名、成立年)を添えて出力します。フルデータ版は少納言・中納言の提供するすべてのデータ項目を出力します。一般のKWIC索引を処理するときはどちらを使っても処理結果は同じです。
  • リンクをクリックした後の手順はブラウザの種類やバージョンによって異なる可能性があります。必要に応じて適宜対処してください。
  • 最近のブラウザやセキュリティソフトはソフトウェアをスムーズにインストールさせてくれないことがあります。Internet Explorerの場合、操作を進めるうちに現れる「詳細オプション」や「詳細情報」のリンクをクリックした先に「実行」ボタンがあります。
  • 更新の場合は、リンクをクリックした後、上書きの確認に対して「はい」で応じてください。なお、本ソフトウェアを実行中の場合はいったん終了したうえで更新します。
  • アンインストールはアイコンをごみ箱に移すだけです。

用法1──少納言・中納言で画面上に表示された検索結果をソート

 少納言・中納言で語句を検索して画面上に表示された検索結果をソートしてエクセルに格納するには次のようにします。

  1) 少納言または中納言(日本語歴史コーパスはこちら)のサイトで語句を検索
  2) 検索結果の画面上で右クリックして「ソースの表示」を選び、メモ帳などで開かれたソースをディスク上に保存
  3) そのファイルをsortKWICのアイコンの上にドラッグ&ドロップ
  • 日本語版および台湾繁体版のWindowsでは、開かれたソースをCtrl+Aで全選択してCtrl+CでコピーしてからsortKWICのアイコンをダブルクリックするという方法が使えます。この場合Shift_JISに含まれない文字が文字化けないし消失しますが、そのような文字はめったに出て来ないうえに研究上関わりを持たないことが多いので、手軽に処理するにはこの方法がお勧めです。
  • ブラウザはInternet Explorer 6以後およびMozilla Firefox、Google Chromeの最近のバージョンに対応しています。ただし、Google Chromeの表示するソースは不安定で、しばしば処理結果がおかしくなります。
 これによりエクセルの新しいブックが開かれ、ソートされた検索結果が各シートに入力されます。列の幅を適宜調整して利用します。検索文字列(中納言ではキー)の前後の文脈は最初各十数文字だけ表示されますが、幅を広げればより広い文脈を見ることができます。

    
  • 検索結果は3つのモードでソートされ、各シートに収められます。
     ・モード1: 先行文脈に基づくソート(上図)
     ・モード2: 検索文字列+後続文脈に基づくソート
     ・モード3: 後続文脈に基づくソート
    検索文字列が単一の文字列の場合はモード2とモード3のソートの結果は同一になるので、モード3のシートは作成されません。
  • ソートは多くの漢字が音読みの順に並ぶShift_JISに基づいて行います。(中納言でのソートはUnicodeに基づいて行われるので、無意味な順序になります。)
  • より広い範囲の文脈を参照したい場合は、検索時に前後文脈の語数の指定を大きくします(中納言のみ)。ただし、検索結果をエクセル上で見る限りあまり大きな語数を指定する意味はなく、通常30ないし50の指定で十分です。
  • BCCWJの場合、通常版では書名に副題と巻号を添えて出力します。
  • 中納言の検索結果に含まれる文脈中の区切り記号「|」は消去します。「/」「,」は消去しません。
  • 処理結果のディスクへの保存は行いません。必要に応じて手動で保存してください。
  • 処理が終わるまでエクセルを操作しないでお待ちください。
  • 処理終了時に表示されるポップアップメッセージは数秒後に自動的に消えます。
  • エクセルの列幅は自動的に設定されますが、環境によって検索文字列(キー)の列幅にわずかな過不足が生じることがあります。そのような場合、列幅の拡大・縮小率(例えば1.15)を書いたファイルを作ってC:\Windows\Temp\KWIC.datという名前で保存しておけば、検索文字列の列幅を補正することができます。指定可能な拡大・縮小率の範囲は0.8~1.25です。なお、この指定は拙作KWICにも共通して適用されます。 New!
  • 用例数を簡単に数える方法を、こちらにあるKWICマニュアルの補説Cで説明しています。 New!

用法2──中納言でダウンロードした検索結果をソート

 中納言でダウンロードした検索結果をソートするには次のようにします。

  1) 中納言(日本語歴史コーパスはこちら)で[検索結果のダウンロード]によって検索結果をディスク上に保存
  2) そのファイルをsortKWICのアイコンの上にドラッグ&ドロップ
  • 検索結果保存時に自動的に付くファイル名はkwic-??????.txtですが、検索内容の分かるファイル名にするのがよいでしょう。日本語版や簡体中文版のWindowsの場合、ファイル名には仮名・漢字も使用可能です。台湾繁体版Windowsでは漢字は使えますが仮名は使えません。
  • 中納言の「ダウンロードオプション」は次のように指定します。
      システム:Windows、文字コード:UTF-8、改行コード:CRLF、「~ZIP圧縮を行わない」:チェック
  • 用法1の場合と異なりブラウザの種類には依存しません。
  • 日本語版および台湾繁体版のWindowsでは、ダウンロードしたファイルをメモ帳かテキストエディタで開き、Ctrl+Aで全選択してCtrl+CでコピーしてからsortKWICのアイコンをダブルクリックするという方法も可能です。
 これによりソートされたKWIC索引がエクセルで開かれます。次の図はモード3のソート結果です。

    
  • 詳しくは用法1の補足説明をご覧ください。
  • Excel 2003ではその仕様上65,000件強が処理可能な用例数の上限となります。
  • データ量が多いと処理に時間がかかります。処理が終わるまでエクセルを操作しないでお待ちください。

用法3── 一般のタブ区切り形式のKWIC索引をソート

 一般のタブ区切り形式のKWIC索引のソートは用法2の場合に準じます。ファイルをsortKWICのアイコンの上にドラッグ&ドロップします。
  • 日本語版および台湾繁体版のWindowsの場合は、KWIC索引をメモ帳かテキストエディタで開き、Ctrl+Aで全選択してCtrl+CでコピーしてからsortKWICのアイコンをダブルクリックするという方法も可能です。日本語版Windowsではエクセルからのコピーも可能です。
    
  • 詳しくは用法1・2の補足説明をご覧ください。
  • 文字コードUTF-8またはShift_JISのファイルをドラッグ&ドロップすることができます。
  • 拙作日本語用例検索サイトでの検索結果の場合も同様です。「検索結果をダウンロード」にチェックを入れてから[検索]ボタンを押して検索結果を取得し、ドラッグ&ドロップまたはコピー&ダブルクリックによってソートします。
  • 上図のKWIC索引では先行文脈、検索文字列、後続文脈がエクセルのA~C列に入っていますが、連続する3列ならばどこでもかまいません。ただし、例外的なデータでは列配置を認識できず処理できない可能性があります。

拙作関連ソフトウェア

 日本語KWIC索引生成ソフトウェア KWIC 任意の日本語テキストから語句を検索し、KWIC索引を生成
 KWIC索引のソート sortKWIC KWIC索引をソート
 KWIC索引の原文参照 Source Text Retriever   KWIC索引の用例の原文テキストを参照
 KWIC索引の引用 quoteKWIC KWIC索引の用例を論文などへの引用に適した体裁でWordに格納
 BCCWJ N-gram分析 BNAnalyzer 中納言の検索結果に基づいて表現の共起傾向を分析
 BCCWJテキスト抽出 bccwj2text BCCWJ-DVD版からコーパス全サンプルのテキストを抽出
 日本語用例検索サイト 青空文庫所収の文学作品約3,400件から日本語の用例を検索
 日本語研究文献検索サイト 日本語研究文献を検索し、結果を見やすい書式で出力
 文献ソートサイト 文献リストを著者名または刊行年に基づいて並べ替える
 例文番号の付け直し Renumber 言語学の論文の例文番号を付け直す(Word用)


改訂履歴

1.00 作成(2011/8/12)
2.00 エクセルへのデータ格納までの全処理を一元化(2011/10/9)
2.10 通常版とフルデータ版の2系列化(2011/10/26)
2.20 中納言の改訂(1.0.2)に対応(2012/6/5)
2.30 Unicode対応、非日本語版Windows対応、ドラッグ&ドロップ対応(2012/7/25)
2.40 検索結果のzipファイルの解凍を不要にした(2012/7/28)
2.50 中納言の改訂(1.0.5)に対応(2012/10/29)
3.00 bccwj2excelの機能を統合、「日本語歴史コーパス」に対応(2013/2/23)
3.10 中納言の改訂(1.1.0)に対応、zipファイル解凍機能を廃止(2013/5/31)
    zipファイルを扱うdllのコピーが不要になりました。
3.20 台湾繁体版Windowsにおける問題を解決(2013/6/8)
3.30 Excel 2013の環境における問題を解決(2013/6/26)
3.31 検索文字列の列幅の微調整を可能にした(2013/10/16)
3.40 縦スクロールしても冒頭の見出し行が動かないようにした(2013/11/6)
  • 環境やデータによって処理が正しく行われない場合、可能であればソフトウェアを修正します。検索結果をメールに添付してお送りください。その際、処理の手順、Windows・エクセル・ブラウザの種類やバージョンなどもお知らせください。

 ソフトウェアのメニューに戻る