ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

4.2 Lucene検索エンジン用TETコネクタLuceneはオープンソースの検索エンジンです。Luceneは本来Javaプロジェクトですが、.NET用バージョンも利用可能です。Luceneについて詳しくはlucene.apache.orgを参照してください。注記暗号化文書は、特定の条件下ではshrugオプションでインデックスできます(詳しくは、63ページの5.1「暗号化PDFから内容を抽出」を参照)。これはConnectorファイル群の中で用意されますが、このオプションを手作業で有効にする必要があります。要件とインストールTETディストリビューションは、Lucene JavaでPDFインデクシングを可能にするために利用できるTETコネクタを含んでいます。以下、このLucene Java用コネクタについて詳しく説明します。以下の要件が満たされていることが前提です:> Lucene 5.2.xに対しJDK 1.7以降。> Antビルドツールが動作するようインストールされている。> LuceneコアJARファイルを持つLuceneディストリビューション。TETとともに配布されるAntビルドファイルはファイルlucene-core-x.x.x.jar・lucene-analyzers-commonx.x.x.jar・lucene-queryparser-x.x.x.jarを前提しています。このファイルはLuceneディストリビューションに含まれています。> Unix・Linux・OS X・Windowsいずれか用のTET配布パッケージがインストールされている。Lucene用TETコネクタを実装するには、コマンドプロンプトで以下の操作を行います:>ディレクトリ/connectors/luceneへ移動。>ファイルlucene-core-x.x.x.jar・lucene-analyzers-common-x.x.x.jar・lucene-queryparserx.x.x.jarをこのディレクトリへ複製。>グローバルな、あるいは文書関連・ページ関連のTETオプションをTetReader.javaに追加することによって設定をカスタマイズすることもできます。たとえば、グローバルなオプションリストを用いて、リソースへの正しいsearchpathを与えることが可能です(日中韓CMapがデフォルトインストールと異なるディレクトリにインストールされている場合等に)。PdfDocument.javaモジュールは、ディスクファイルかメモリバッファ(Webクローラによって与えられた等)に格納されているPDF文書を処理する方法を演示しています。>コマンドant indexを実行。これはソースコードをコンパイルし、/bind/dataディレクトリ内に含まれるPDFファイル群に対してインデクサを走らせます。>コマンドライン検索を開始するには、コマンドant searchを実行します。ここでは、Luceneクエリ言語でクエリを入力できます。TETとLuceneをコマンドライン検索クライアントでテスト以下のサンプルセッションは、TETとLuceneでインデクシングを行い、生成されたインデックスをLuceneコマンドラインクエリツールでテストする場合のコマンドと出力を演示しています。この操作はコマンドant indexを実行することから始まります:amira (1)$ ant indexBuildfile: build.xml...index:[echo] Indexing PDF files in directory "../../bind/data"[java] adding ../../bind/data/Whitepaper-Technical-Introduction-to-PDFA.pdf48 4章: TETコネクタ