ブックタイトルTET5
- ページ
- 61/228
このページは TET5 の電子ブックに掲載されている61ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている61ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
る全文テキストも含めて)ので、PDFのテキスト内容もインデックスされます。インデックス用テキストは以下のように構築されます:> TETコネクタは、すべての文書情報フィールドの値をインデックスへ与えます。>すべてのページのテキスト内容が抽出されて結合されます。>抽出されたテキストのサイズが制限未満であれば、それはまるごとインデックスへ与えられます。この方式の利点は、検索結果が検索語を文脈の中で表示する点です。>抽出されたテキストのサイズが制限を超えている場合は、テキストはユニークな単語群へ減量されます(すなわち、同一の単語が複数回出現しているものについて、その単語を1回だけに減量されます)。>減量したテキストのサイズが制限未満であれば、それはインデックスへ与えられます。そうでない場合には、それは切り落とされます。すなわち、その文書の終わりのほうのテキストはインデックスされなくなります。定義済みの制限は512 KBですが、これはPDFIndexer.php内で変更することもできます。上記のサイズテストの一つが制限に触れた場合には、MediaWikiのログ記録が有効にされているならば、警告メッセージがMediaWikiのDebugLogFileへ書き込まれます。PDF文書を検索PDF文書はMediaWikiによって画像として扱われますので、Image名前空間内を検索する必要があります。これは、Advanced searchダイアログ(図4.1参照)の名前空間の一覧にあるImageチェックボックスをオンにすることで実現できます。ただし、この設定はLocalSettings.php設定ファイル内で以下のように有効にすることも可能です:$wgNamespacesToBeSearchedDefault = array(NS_MAIN=> true,NS_IMAGE=> true,}図4.1 MediaWiki内でPDF文書を検索検索結果は、検索語を含む文書の一覧を表示します。テキスト全文がインデックスされている場合(文書が長くて単語リストへ減量された場合ではなく)には、検索語の前後にいくつかの語が表示されて文脈を示します。PDFテキスト内容はMediaWikiインデックスにHTML形式で与えられますので、テキストの頭に行番号が表示されます。これらの行番号はPDF文書については意味がありませんので、無視して差し支えありません。メタデータフィールドをインデックスMediaWiki用TETコネクタは、すべての標準文書情報フィールドをインデックスします。各フィールドの値が、検索で利用できるよう、インデックスへ与えられます。MediaWikiはメタデータベースの検索に対応していませんので、文書情報項目を直接検索することはできず、全文テキストの一部としてのみ情報項目を検索できます。4.7 MediaWiki用TETコネクタ61