ブックタイトルTET5
- ページ
- 13/228
このページは TET5 の電子ブックに掲載されている13ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている13ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
画像については、ピクセルサイズ・物理サイズ・色空間が得られるほか、位置や角度も得られます。テキストの色TETはグリフの色に関する情報を提供します。塗りと描線のための色空間と、照応するカラー値を取得できます。複数のグリフの色を簡単に比較するための簡便なショートカットが利用できますので、PDFのさまざまな色空間の煩雑さを取り扱う必要がありません。単語検出と内容解析TETには、低次元のグリフ情報を抽出する機能だけでなく、高次元の内容・レイアウト解析を行う高度なアルゴリズムも内蔵されています:>単語区切りを検出して文字群でなく単語を抽出。>ハイフンで区切られた単語の各部を再結合(デハイフネーション)。>影付きや擬似太字テキスト等によるテキストのダブりを除去。>段落群を読み順に再連結。>ページ上に配置されたテキスト群の順序認識。>テキストの行を再構成。>ページ上の表組構造を認識。>上付き・下付き・ドロップキャップ(段落頭の大きい先頭キャラクタ群)を認識。TET Markup Language(TETML)PDF文書から取得した情報は、TET Markup Language(TETML)というXML形式で表現することもできます。これは標準的なXMLツール群で処理が可能です。TETMLは、テキスト・画像・メタデータ情報を内容として持つほか、オプションとしてフォント・位置関連情報を内容として持つこともできます。TETMLはまた、色・色空間情報、およびフォームフィールド・注釈・しおりなどインタラクティブ要素を内容として持ちます。PDFオブジェクトを容易に指し示すためのpCOSインタフェースTETは、任意のPDFオブジェクトを取得するためのpCOS(PDFlib Comprehensive Object System)インタフェースを含んでいます。pCOSを使うと、PDF文書から、PDFメタデータやインタラクティブ要素(しおりテキストやフォームフィールドの内容など)、その他あらゆる情報を、簡単な取得インタフェースで取得することができます。pCOSクエリパスの文法は、別途pCOSパスリファレンスに記述しています。テキストとは何かTETはさまざまな種類のPDF文書を扱いますが、目に見えるテキストを抽出できない場合もあります。そのテキストはPDFのテキスト・エンコーディング機能を用いて符号化されている必要があります(すなわちそれはフォントに基づいたものでなければなりません)。以下の種類のテキストはページ上で目に見えてはいてもTETで抽出することはできません:>ページのスキャナ画像等、ラスタライズされた(ピクセル画像の)テキスト>フォントなしにベクトル要素で表されたテキストなお、メタデータとハイパーテキスト要素(しおり・フォームフィールド・ノート・注釈等)内テキストはTETMLかpCOSインタフェースを用いて抽出できます:詳しくは73ページの6.1「PDFのさまざまな文書領域」を参照してください。逆にTETは、ページ上で目に見えていないテキストを抽出することもあります。これは以下のような場合に起こる可能性があります:> PDFの不可視属性を用いたテキスト(ただし、この種類のテキストをテキスト抽出処理の対象外にするオプションはあります)。1.1 TET機能概要13