ブックタイトルTET5
- ページ
- 11/228
このページは TET5 の電子ブックに掲載されている11ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている11ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
1はじめにPDFlib Text and Image Extraction Toolkit(TET)は、PDF文書からテキスト・画像を抽出することを目的としていますが、それ以外の情報をPDFから取り出すために利用することもできます。TETは、以下のような目的を実現するための基盤要素として活用できます:> PDFのテキスト内容を検索> PDF内に含まれる全用語の一覧(コンコーダンス)を生成>大量PDFファイルを処理可能な検索エンジンを実装> PDFからテキスト抽出して保管・翻訳・その他再利用目的に活用> PDFのテキスト内容を他形式へ変換> PDFをそれぞれ内容にしたがって処理または変更>複数PDF文書のテキスト内容を比較> PDFからラスタ画像を抽出> PDFからメタデータ等の情報を抽出TETは、スタンドアロン使用のために設計されており、いかなるサードパーティソフトウェアをも必要としません。堅牢であり、マルチスレッドのサーバ用途にも適しています。1.1 TET機能概要対応するPDF入力TETは、さまざまな作成元による数百万種のPDFテストファイルに対して動作試験済です。PDF 1.0からPDF 1.7拡張レベル8までとPDF 2.0を受け入れ可能です。これはAcrobat 1~DCに対応します。また、暗号化された文書も受け入れ可能です。TETは、さまざまな種類の異常・破損PDF文書の修復を試みます。注記TETはXFAフォームには対応していません。XFAは、PDF標準ISO 32000-1の一部ではなく、別個の形式です。XFAが小さなPDFラッパの中にパッケージされているため、XFAフォームはしばしばPDF文書と混同されますが、実際にはXFAはまったく別のファイル形式であり、専用のソフトウェアを必要とします。Unicode対応TETには、あらゆるテキストに対して信頼性の高いUnicodeマッピングを実現するに足る充分な数のアルゴリズムとデータが内蔵されています。PDF文書内のテキストはUnicodeで符号化されているとは限りませんので、TETはPDF文書から抽出したテキストをUnicodeに正規化します:> TETはすべてのテキスト内容をUnicodeに変換します。Cの場合、テキストはUTF-8形式かUTF-16形式で返されます。それ以外の言語の場合はネイティブUnicode文字列として返されます。>合字など複数文字グリフは、その構成素を並べたUnicodeキャラクタ列へと分解されます。>ベンダ依存Unicode値(Corporate Use Subarea、CUS)については識別情報が与えられるとともに、厳密な定義済みの意味を持つキャラクタへ可能な限りマップされます。> Unicodeマッピング情報を欠いたグリフについては識別情報が与えられるとともに、ユーザ指定可能な置換キャラクタへマップされます。>基本多言語面(BMP)外のキャラクタに対するUTF-16サロゲートペアは解釈され保持されます。サロゲートペアとUTF-32値はすべての言語バインディングにおいて抽出可能です。1.1 TET機能概要11