ブックタイトルTET5
- ページ
- 58/228
このページは TET5 の電子ブックに掲載されている58ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている58ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
4.6 Apache TIKAツールキット用TETコネクタTIKAは、オープンソースの「既存のパーサライブラリを用いてさまざまな文書からメタデータ・構造化テキスト内容を検出・抽出するためのツールキット」です。TIKAの詳細についてはtika.apache.orgを参照してください。Tika用TETコネクタは、Tikaに設定されているデフォルトのPDFパーサを置き換え、TETをPDF形式用のパーサとして接続します。TETコネクタは以下の項目をTikaに与えます:>全ページの非整形のテキスト内容>定義済み・カスタムの文書情報フィールド群>文書のページ数注記暗号化文書は、特定の条件下ではshrugオプションでインデックスできます(詳しくは、63ページの5.1「暗号化PDFから内容を抽出」を参照)。これはConnectorファイル群の中で用意されますが、このオプションを手作業で有効にする必要があります。TETPDFParser.javaではこれに加えて、shrugオプションでは不足の場合にパスワードを与える方法を提供しています。要件とインストールTETディストリビューションは、Tikaツールキット用TETコネクタを含んでいます。以下の説明において