ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

PDF文書のなかには、信頼性の高いUnicodeマッピングの実現に必要な情報を充分に持たないものがあります。そのような場合でもテキストを正しく抽出できるよう、TETにはさまざまな設定オプションが用意されており、それを用いることによって、正しいUnicodeマッピングの実現に必要な補助的情報を与えることができます。必要なマッピングテーブルの作成支援のため、PDFlib FontReporterというAdobe Acrobat用無料プラグインを提供いたしております。このプラグインを用いれば、PDF内のフォント・エンコーディング・グリフの解析が可能です。日中韓対応TETは、日本語・中国語・韓国語テキストの抽出に完全対応しています:>あらゆる定義済み日中韓CMap(エンコーディング)が認識され、日中韓テキストはUnicodeに変換されます。日中韓エンコーディング変換のためのCMapファイル群が、TETディストリビューションに同梱されています。>特殊なキャラクタ字形(全角・半角・縦中横等)を、対応する通常の字形に変換(字形統合)することもできます。>横書きと縦書きに対応しています。>日中韓フォント名はUnicodeへ正規化されます。双方向ヘブライ文字・アラビア文字テキスト対応TETは、双方向テキストを扱うための以下の機能を含んでいます:>右書き・双方向テキストを論理順に並べ替え>ページの主要テキスト方向を決定>アラビア文字の表示形を正規化し、合字を分解>単語の引き伸ばしに使われているアラビア文字のタトウィールキャラクタを除去Unicode後処理TETのUnicode後処理機能は以下を含みます:>字形統合:一つないし複数のキャラクタに対して温存・置換・除去のいずれかを行います。対象キャラクタ群をUnicode集合として指定することができるので便利です。>分解:Unicode規格で定義されている正準分解または互換分解を適用することも可能です。環境によってはこれによってテキストがより有用になる場合があります。たとえば、アクセント付きキャラクタや分数、商標記号のような記号を温存したり分割したりすることができます。>正規化:出力を、Unicode規格で定義されているUnicode正規形NFC・NFD・NFKC・NFKDのいずれかへ変換します。これによってTETは、データベースや検索エンジンなどいくつかの環境が入力として求める形式と正確に一致した形式を生成することができます。画像抽出TETはPDFからラスタ画像を抽出します。断片化された画像の隣接部分は再結合され、後処理と再利用を可能にします(いくつかのアプリケーションによって生成されたマルチストリップ画像等)。小さい画像は、微小な画像素片で出力が散らかることを防ぐために、フィルタをかけて取り除くこともできます。画像にマスクが付けられている場合には、そのマスクも抽出可能です。画像は、TIFF・JPEG・JPEG 2000・JBIG2のいずれかの形式で抽出されます。位置情報TETは、テキストのページ上の位置やグリフ幅やテキスト方向といった厳密なメトリクスを出力します。テキスト抽出処理に際してはページ上の特定領域を外したり含めたりすることにより、たとえばヘッダ・フッタや余白を無視させたりすることが可能です。12 1章:はじめに