KWIC索引の原文参照 Source Text Retriever



概要

 日本語のKWIC索引の用例の原文テキストをテキストエディタで開き、当該箇所を表示します。原文テキストから断片的に切り取られて生命を失った用例を本来それが生きていた文脈に戻します。次の2種類のKWIC索引を扱うことができます。

   ①日本語KWIC索引生成ソフトウェアKWICで生成したKWIC索引
   ②中納言によるBCCWJの検索結果に基づいてsortKWICで生成したKWIC索引

 最新バージョンはSource Text Retriever 1.40です。(2014/6/7)

  [ お知らせ ]
  ◇ 複数の原文テキストを同時に開けるようになりました。(2014/6/7)
  ◇ 検索文字列を強調表示できるようになりました。(2013/6/10)
  • 本ソフトウェアは無保証です。自己責任でご使用ください。
  • 本ソフトウェアは秀丸エディタのインストールされたWindows上で動作します。作成とメインの動作確認は日本語版Windows XP+秀丸エディタ8.30で行っています。Windows Vista/7/8および英語、中文繁体(台湾)の各版のWindows XPでの動作も確認しています(簡体中文版では動作しません)。
  • 英語版Windowsの場合はこちらの手順に従って設定を行う必要があります。また、Japanese Language Packの追加を要する可能性があります。
  • 本ソフトウェアの作成にはRuby 1.8.7(http://www.ruby-lang.org/)とExerb 5.3.0(http://exerb.sourceforge.jp/)を使用させていただいています。
  • 本ソフトウェアは法的に保護された著作物です。改変・転載・再配布等はご遠慮ください。

インストール

 Source Text Retrieverを使うには次の2種類の準備を行います。名称が長いので適宜STRetriever(STレトリーバ)という略称を使います。

1) STRetrieverのインストール
 次のリンクをクリックし、表示される「ファイルのダウンロード」ダイアログで[実行]ボタンを押します。環境によって[実行]ボタンが出ない場合は、まずファイルをディスク上に保存し、それをダブルクリックして実行します。(実行時、セキュリティの警告には「実行する」や「はい」などで応じてください。)続いて表示される「Source Text Retrieverのインストール」のダイアログで[OK]ボタンを押すと、デスクトップにアイコンが作られます。(インストール後に「このプログラムは正しくインストールされなかった可能性があります」というメッセージが出ることがありますが、問題なくインストールされています。「このプログラムは正しくインストールされました」で応じてください。)

   Source Text Retrieverのインストール

      
  • リンクをクリックした後の手順はブラウザの種類やバージョンによって異なる可能性があります。必要に応じて適宜対処してください。
  • 最近のブラウザやセキュリティソフトはソフトウェアをスムーズにインストールさせてくれないことがあります。Internet Explorerの場合、操作を進めるうちに現れる「詳細オプション」や「詳細情報」のリンクをクリックした先に「実行」ボタンがあります。
  • 更新の場合は、リンクをクリックした後、上書きの確認に対して「はい」で応じてください。なお、本ソフトウェアを実行中の場合はいったん終了したうえで更新します。
  • アンインストールはアイコンをごみ箱に移すだけです。
2) 秀丸エディタのインストールと設定
 最近の秀丸エディタがインストールされていない場合は、こちらから取得してインストールしてください。台湾繁体版Windowsの場合は同ページにある秀丸エディタの英語版(Maruo)をインストールします。
  • 2通りのインストール方法が用意されています。できれば「カスタムインストール」を選び、個々の項目を自分で設定することをお勧めします。しかし、設定の内容がよく分からない場合は「簡単インストール」でも問題ないでしょう。
 次に、秀丸エディタの検索時の動作を設定します。手順は、秀丸エディタを起動→[検索]→[検索]→「正規表現」と「あいまい検索」の両方にチェック→[設定]ボタンを押す→「改行を無視する」にチェック、「最大改行数」を8に設定→[OK]→[下検索]→秀丸エディタを終了、です。
  • 英語版の場合は、秀丸エディタを起動→ [Search]→[Find]→「Regular expression」と「Fuzzy search」の両方にチェック→[Option]ボタンを押す→「Ignore CarrigeReturn」にチェック、「Max count」を8に設定→[OK]→[Next]→秀丸エディタを終了、とします。
  • 秀丸エディタを別の目的に使って検索の設定を変更した場合、STRetrieverを使うときには上記のように設定し直す必要があります。

用法1──拙作KWICによる検索結果に基づく原文参照

 日本語KWIC索引生成ソフトウェアKWICで生成したKWIC索引をエクセルで開き、原文を参照したい用例の行番号をクリックして行を範囲選択し、Ctrl+Cでコピーします。連続した複数の用例を選択することもできます。

    

 台湾繁体版Windowsの場合は、今コピーした内容を一度メモ帳か秀丸エディタなどのテキストエディタにCtrl+Vで貼り付け、そのうえでCtrl+Aで全選択して再度Ctrl+Cでコピーします。
  • この手順を省くと、原文テキストは開けても検索文字列の位置を特定できません。
 引き続きSTRetrieverのアイコンをダブルクリックすると、次のように原文テキストが秀丸エディタで開かれ、当該箇所を参照することができまます。検索文字列は強調表示されます。

    
  • 処理方法の制約上、条件によっては検索文字列の位置が特定できずカーソルがテキストの冒頭に置かれることや、検索文字列がテキストに複数箇所に含まれいているときに正しくない箇所が選ばれることがあります。また、検索文字列が正しく特定できても、秀丸エディタの仕様により反転表示するだけで強調表示ができないことがあります。
  • 多数の用例を選択したときは、原文テキストを10個開くごとに一時停止します。
  • エクセルファイルで不連続の複数の用例を選択しても意図通りの動作になりません。
  • 原文テキストは安全のため上書き禁止モードで開きます。
  • 巨大な原文テキストを開こうとすると、秀丸エディタが最大行数に関する警告のメッセージを表示します。その指示に従って設定を変更してください。また、原文テキストが大きいと読み込みなどに時間がかかる関係で複数用例の一括処理を正しく行えないことがあります。問題がある場合は用例を1件ずつ処理してください。
  • Windowsに異常が生じている場合、原文テキストや確認のダイアログがほかのウィンドウの背後に開かれることがあります。
  • タグは前置でも後置でもかまいません。タグのファイル名はフルパス指定である必要があります。
  • 台湾繁体版Windowsの場合、ファイル名が仮名を含むときは正しく機能しません。

用法2──中納言によるBCCWJの検索結果に基づく原文参照

 中納言によるBCCWJの検索結果をsortKWICのフルデータ版で処理したKWIC索引に含まれる用例の原文を参照することもできます。これにはBCCWJ-DVD版から拙作bccwj2textによって抽出した原文テキストが必要です。

 用法1の場合と同じく、用例を選択してコピーします。台湾繁体版Windowsの場合はそれをメモ帳などに貼り付けてコピーし直します。

    

 STRetrieverのアイコンをダブルクリックすると、原文テキストが開かれ、当該箇所を参照することができます。

    
  • 詳しくは用法1の補足説明をご覧ください。
  • BCCWJ-DVD版からテキストを抽出すれば、BCCWJの検索は少納言・中納言でも拙作KWICでも行えるようになります。検索内容によって使い分けるとよいでしょう。本ソフトウェアは、BCCWJをいずれの方法で検索したときにも使えます。
  • ちなみに上のテキスト中に見えるspecurationは正しくはspeculationですが、書籍の誤りか電子化の誤りかは未確認です。

拙作関連ソフトウェア

 日本語KWIC索引生成ソフトウェア KWIC 任意の日本語テキストから語句を検索し、KWIC索引を生成
 KWIC索引のソート sortKWIC KWIC索引をソート
 KWIC索引の原文参照 Source Text Retriever   KWIC索引の用例の原文テキストを参照
 KWIC索引の引用 quoteKWIC KWIC索引の用例を論文などへの引用に適した体裁でWordに格納
 BCCWJ N-gram分析 BNAnalyzer 中納言の検索結果に基づいて表現の共起傾向を分析
 BCCWJテキスト抽出 bccwj2text BCCWJ-DVD版からコーパス全サンプルのテキストを抽出
 日本語用例検索サイト 青空文庫所収の文学作品約3,400件から日本語の用例を検索
 日本語研究文献検索サイト 日本語研究文献を検索し、結果を見やすい書式で出力
 文献ソートサイト 文献リストを著者名または刊行年に基づいて並べ替える
 例文番号の付け直し Renumber 言語学の論文の例文番号を付け直す(Word用)


改訂履歴

1.00 TagJump作成(2012/7/17)
1.10 検索文字列を反転表示、処理内容の変更に伴い改称(2012/8/8)
1.20 検索文字列を強調表示、台湾繁体版Windowsに対応(2013/6/10)
1.30 一定条件下での問題を解消、半角仮名を含むファイル名に対応(2014/5/14)
1.40 複数の原文テキストの同時オープンを実現(2014/6/7)
  • 環境やデータによって処理が正しく行われない場合、可能であればソフトウェアを修正します。問題点とWindowsとテキストエディタの種類、バージョンなどをお知らせください。

 ソフトウェアのメニューに戻る