ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

4.6 Apache TIKAツールキット用TETコネクタTIKAは、オープンソースの「既存のパーサライブラリを用いてさまざまな文書からメタデータ・構造化テキスト内容を検出・抽出するためのツールキット」です。TIKAの詳細についてはtika.apache.orgを参照してください。Tika用TETコネクタは、Tikaに設定されているデフォルトのPDFパーサを置き換え、TETをPDF形式用のパーサとして接続します。TETコネクタは以下の項目をTikaに与えます:>全ページの非整形のテキスト内容>定義済み・カスタムの文書情報フィールド群>文書のページ数注記暗号化文書は、特定の条件下ではshrugオプションでインデックスできます(詳しくは、63ページの5.1「暗号化PDFから内容を抽出」を参照)。これはConnectorファイル群の中で用意されますが、このオプションを手作業で有効にする必要があります。TETPDFParser.javaではこれに加えて、shrugオプションでは不足の場合にパスワードを与える方法を提供しています。要件とインストールTETディストリビューションは、Tikaツールキット用TETコネクタを含んでいます。以下の説明においては、TETパッケージをアンパックしたディレクトリを意味します。下記の要件を満たす必要があります:> JDK 1.5以降> Antビルドツールの動作中のインストレーション> Unix・Linux・OS X・Windowsいずれか用のインストール済みTETディストリビューションパッケージ。>名前tika-app-1.x.jarのTika用プレビルトJARファイル。このファイルのためのダウンロード情報は下記の場所にあります:tika.apache.org/download.html一般にTika 1.8以上を使用できます。ただしTika 1.9には、内蔵のPDFパーサをオーバライドできないバグがあります。ですのでTETコネクタをTika 1.9とともに使用できるのは、Tikaのソースコードに何らかの調整を加えた場合か、あるいはTika XML構成ファイルのような機構を用いた場合のみです。Tika用TETコネクタをビルドしてテストTika用TETコネクタをビルドしてテストするには以下の手順に従います:> tika-app-1.x.jarをディレクトリ/connectors/Tikaへコピー。> /connectors/Tikaへ移動し、Tika用TETコネクタをビルド:antTika jarファイルの名前がtika-app-1.0.jarでないときは、jarファイル名をコマンドラインで与える必要があります:ant -Dtika-app.jar=tika-app-1.x.jar>ビルドファイルは、Tika用TETコネクタでのテストを走らせるターゲットを含んでいます:ant test58 4章: TETコネクタ