ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

表7.8マップ不能グリフ群に対するTET PUA値の扱いをunknownchar文書オプションを用いて指定説明とオプションリスト生入力結果マップ不能グリフ群に対するTET PUA値を疑問符(またはその他任意の適切なUnicodeキャラクタ)で置き換え。これはテキスト内の問題のあるグリフ群を目で見て特定するのに有用でしょう:unknownchar=?マップ不能グリフ群に対するTET PUA値を除去:unknownchar=remove?U+003Fなしマップ不能グリフ群に対するTET PUA値を温存。これはデバッグや分析に有用でしょう:unknownchar=preserve(TET PUA値)私用領域(PUA)内のキャラクタフォントまたはPDF文書がグリフを私用領域内のUnicodeキャラクタへマップしていることがあります。これは日本語の外字フォントやロゴフォントなど世界的に標準化された意味を一切持たない記号に対して広く用いられています。このようなPUAキャラクタは、一般的なUnicodeワークフローの中で意味のある活用ができませんので、デフォルトではUnicode置換キャラクタU+FFFDで置き換えられます。PUA値を扱える用途においてPUA値を温存する方法については表7.2を参照してください。Unicodeマッピング制御の概要TETには、実際にはUnicode値を持たないPDF文書から、それでも何とかしてテキストをうまく抽出できるよう処理するための、さまざまな代替機能が備わっています。しかしながらそれでもなお、PDFやフォントデータの構造内で充分な情報が得られないためにテキストを抽出することができない文書というものは存在します。TETは、Unicodeマッピング情報を追加供給するために活用することのできるさまざまな設定機能を持っています。この節ではそうした機能について解説します。TET_open_document( )でglyphmappingオプションを用いると(182ページの10.3「文書関数」を参照)、グリフに対するUnicodeマッピングを何通りかの方式で制御することができます。利用可能な方式の概要を以下に列挙します(組み合わせて利用することも可能)。こうした制御は、フォントごとに適用することもできますし、1つの文書内のすべてのフォントに対してグローバルに適用することもできます:> forceencodingサブオプションを用いると、PDFにおける定義済みのエンコーディングWinAnsiEncoding・MacRomanEncodingが用いられるたびに、すべて別のエンコーディングで処理させることができます。> codelist・tounicodecmapサブオプションを用いると、Unicode値のリストをシンプルテキスト形式(codelistリソース)で与えることができます。> glyphlistサブオプションを用いると、非標準グリフ名をUnicode値にマップしたリストを与えることができます。> glyphruleサブオプションを用いると、グリフ名の数値からUnicode値をアルゴリズム的に導き出すための規則を定義することができます。encodinghintオプションを用いると、内部規則を制御することができます。>定義済みのエンコーディングはすでに何ダースもありますが、それに加えてカスタムのエンコーディングを定義することも可能で、これはencodinghintオプションで、またはglyphruleオプションのencodingサブオプションで利用することができます。> PDFが充分な情報を与えずフォントがPDFに埋め込まれてもいないときに外部のフォントからUnicodeマッピング情報が得られるよう設定しておくことも可能です。7.5グリフに対するUnicodeマッピング115