ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

4.3 Solr検索サーバ用TETコネクタSolrは高パフォーマンスなオープンソースのエンタプライズ検索サーバで、Lucene検索ライブラリをベースとしています。XML/HTTP・JSON/Python/Ruby APIを有し、ヒットハイライト・ファセット検索・キャッシュ化・レプリケーション・Web管理インタフェースをそなえています。Javaサーブレットコンテナ内で動作します(lucene.apache.org/solrを参照)。SolrはLuceneコアエンジンを取り巻く追加レイヤとしてふるまいます。インデックスされたデータをシンプルなXML形式で受け付けます。Solr入力はTETMLをベースに非常に簡単に生成できます。TETMLはTETが生成する一種のXMLです。Solr用TETコネクタは、TETMLをSolrが受け付けるXML形式へ変換するXSLTスタイルシートから成ります。このスタイルシートのためのTETML入力は、TETライブラリかTETコマンドラインツールで生成できます(137ページの9.1「TETMLを生成」を参照)。注記暗号化文書は、特定の条件下ではshrugオプションでインデックスできます(詳しくは、63ページの5.1「暗号化PDFから内容を抽出」を参照)。暗号化文書をインデックスするには、SolrのためのTETML入力を生成する際に、TETライブラリかTETコマンドラインツールでこのオプションを有効にする必要があります。メタデータフィールドをインデックスSolr用TETコネクタは、すべての標準文書情報フィールドをインデックスします。各フィールドのキーがフィールド名として用いられます。PDFファイル添付Solr用TETコネクタは、文書内のすべてのPDFファイル添付を再帰的に処理し、各添付のテキストとメタデータをインデックスできるよう検索エンジンに与えます。これによって、検索テキストがメイン文書内になく添付内にあるときでも、検索ヒットが生成されます。再帰的添付横断はとりわけ、PDFパッケージ・ポートフォリオに対して重要です。TETMLを変換するためのXSLTスタイルシートsolr.xslスタイルシートは、glyph以外の任意のモードのTETML入力を受け付けます。これは、検索サーバに入力データを与えるために必要なXMLを生成します。文書情報項目群は、その情報項目の名前(に文字列値であることを示す_s接尾辞をつけたもの)を保持したフィールドとして与えられ、メインテキストは多数のテキストフィールドで与えられます。文書内のPDF添付(PDFパッケージ・ポートフォリオを含む)は再帰的に処理されます:TET-datasheet.pdfPDFlib GmbH2015-08-04T23:45:46+02:00Adobe InDesign CS6 (Windows)2015-08-04T23:45:46+02:00Adobe PDF Library 10.0.1PDFlib TET: Text and Image Extraction Toolkit (TET)PDFlib TET datasheetPDFlibdatasheetPDFlibTET5...4.3 Solr検索サーバ用TETコネクタ51