ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

>テキストの厳密さを保つもう一つの方策としては、ページ上に表示されていないテキストについてはテキスト抽出を無効化するとよいでしょう:ignoreinvisibletext=truePDFlib+PDIで文書を処理PDFlib+PDIを用いてPDF文書をページごとに処理している場合には、TETをそこに組み合わせて分割や結合の処理を制御することもできます。たとえば、PDF文書をページ上の内容に従って分割することが可能になります。作成処理に関与している場合には、テキスト内にそのための適当な処理命令を持った区切りページを挿入することもできます。TETクックブックには、TETで文書を分析してからそれをPDFlib+PDIで処理する例が含まれています。Unicode値を持たないレガシPDF文書場合によっては、レガシアプリケーションによって生成されたPDF文書を処理しなければならないことがあります。そのようなPDFは、正しいUnicodeマッピングに必要な充分な情報を持たないことがありえます。デフォルト設定を用いた場合には、TETはそのテキスト内容の一部ないし全部抽出できないかもしれません。推奨方策:>まずはテキストをデフォルト設定で抽出してみて、その結果を解析します。正しいUnicodeマッピングに必要な充分な情報を与えないフォントを見つけます。>このフォントの問題を解決するため、カスタムのエンコーディングテーブルとグリフ名リストを書きます。PDFlib FontReporterを利用してフォントを解析し、Unicodeマッピングテーブルを作成します。>このカスタムのマッピングテーブルを設定して、テキストをまた抽出してみます。この時は文書の量をはじめより多くしてみます。なおもマップ不能なグリフがある場合には、マッピングテーブルを適切に調整します。>マップ不能なグリフを持つ文書が大量にある場合は、必要なマッピングテーブルの作成についてPDFlib GmbHが支援できる場合もあります。PDF文書を他の形式に変換PDF文書のページ内容を、できるだけ多くの情報を保ちながら自分のアプリケーションに取り込みたい場合には、正確なキャラクタメトリックが必要になります。推奨方策:> TET_get_char_info( )を用いて、正確なキャラクタメトリックとフォント名を抽出します。uvフィールドを用いて各キャラクタのUnicode値を抽出している場合でも、char_info構造に内容を取り込むためにTET_get_text( )を呼び出す必要があります。> TET_open_page( )でgranularity=glyphかwordのいずれかを用います。自分のアプリケーションに合っている方を選びましょう。granularity=glyphで処理をすると、テキストの視覚レイアウトと、TETが処理して生成する論理的テキストとの間に齟齬が生じる場合があります(たとえば、合字グリフによって生成された2個のキャラクタは、その合字と同じ幅には収まらないかもしれません)。カスタムエンコーディングのロゴを持つ企業フォント多くの場合、カスタムのロゴを含んだ企業フォントは、そのロゴに対するUnicodeマッピング情報を含んでいないか、あるいは含んでいても誤っています。このようなフォントが含んだPDF文書が大量にある場合には、正しいUnicode値でカスタムのマッピングテーブルを作成することを推奨します。まず、そのフォントを含んだPDFに対するフォントレポートを生成させ(116ページの「PDFlib FontReporter PluginでPDF文書を分析」を参照)、マップが誤っているグリフをそのフォントレポート内で見つけます。そのフォントの種類で利用できる設定テーブルを選び、それを用いて、足りないUnicodeマッピングを与えることができます。ロゴタイ5.3代表的シナリオのための推奨方策71