ブックタイトルTET5
- ページ
- 51/228
このページは TET5 の電子ブックに掲載されている51ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている51ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
4.3 Solr検索サーバ用TETコネクタSolrは高パフォーマンスなオープンソースのエンタプライズ検索サーバで、Lucene検索ライブラリをベースとしています。XML/HTTP・JSON/Python/Ruby APIを有し、ヒットハイライト・ファセット検索・キャッシュ化・レプリケーション・Web管理インタフェースをそなえています。Javaサーブレットコンテナ内で動作します(lucene.apache.org/solrを参照)。SolrはLuceneコアエンジンを取り巻く追加レイヤとしてふるまいます。インデックスされたデータをシンプルなXML形式で受け付けます。Solr入力はTETMLをベースに非常に簡単に生成できます。TETMLはTETが生成する一種のXMLです。Solr用TETコネクタは、TETMLをSolrが受け付けるXML形式へ変換するXSLTスタイルシートから成ります。このスタイルシートのためのTETML入力は、TETライブラリかTETコマンドラインツールで生成できます(137ページの9.1「TETMLを生成」を参照)。注記暗号化文書は、特定の条件下ではshrugオプションでインデックスできます(詳しくは、63ページの5.1「暗号化PDFから内容を抽出」を参照)。暗号化文書をインデックスするには、SolrのためのTETML入力を生成する際に、TETライブラリかTETコマンドラインツールでこのオプションを有効にする必要があります。メタデータフィールドをインデックスSolr用TETコネクタは、すべての標準文書情報フィールドをインデックスします。各フィールドのキーがフィールド名として用いられます。PDFファイル添付Solr用TETコネクタは、文書内のすべてのPDFファイル添付を再帰的に処理し、各添付のテキストとメタデータをインデックスできるよう検索エンジンに与えます。これによって、検索テキストがメイン文書内になく添付内にあるときでも、検索ヒットが生成されます。再帰的添付横断はとりわけ、PDFパッケージ・ポートフォリオに対して重要です。TETMLを変換するためのXSLTスタイルシートsolr.xslスタイルシートは、glyph以外の任意のモードのTETML入力を受け付けます。これは、検索サーバに入力データを与えるために必要なXMLを生成します。文書情報項目群は、その情報項目の名前(に文字列値であることを示す_s接尾辞をつけたもの)を保持したフィールドとして与えられ、メインテキストは多数のテキストフィールドで与えられます。文書内のPDF添付(PDFパッケージ・ポートフォリオを含む)は再帰的に処理されます: