ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

6.4日本語・中国語・韓国語テキスト6.4.1日中韓エンコーディング・CMapTETは日本語・中国語・韓国語(日中韓)のテキストに対応しており、横書き・縦書きの、任意のレガシエンコーディング(CMap)の日中韓テキストをUnicodeに変換します。TETはAdobeのすべての日中韓キャラクタ集合に対応しています:>日本語:Adobe-Japan1~6>中国語繁体字:Adobe-CNS1~6>中国語簡体字:Adobe-GB1~5>韓国語:Adobe-Korea1~2これらのPDF CMapは、今日用いられているすべての日中韓キャラクタエンコーディングをカバーしています。たとえばShift-JIS・EUC・Big-5・KSC等、多数のエンコーディングです。ロケール独自エンコーディングで符号化された日中韓フォント名(Shift-JISで符号化された和文フォント名など)は、Unicodeへ正規化されます。注記レガシエンコーディングで符号化された日中韓テキストを抽出するには、TETに同梱のCMapファイル群の場所を、7ページの0.1「ソフトウェアをインストール」に従って設定する必要があります。6.4.2日中韓テキストの単語境界表意文字キャラクタは単語境界を構成しませんが、句読点、および表意文字キャラクタと非表意文字キャラクタとの間の切り替わりは、なお単語境界を構成します。granularity=wordの場合、表意文字読点U+3001と表意文字句点U+3002も単語境界を構成します。granularity=pageの場合、行末に行区切りが挿入されません。注記TET 5ではデフォルト動作が変更されました。TET 4は表意文字キャラクタをデフォルトで単語境界として扱っていました。6.4.3縦書きTETは横書きにも縦書きにも対応しており、それぞれについて適切なメトリック計算をすべて行います。縦書きのテキストを扱う際には以下のことに留意して下さい。>グリフの参照点は縦書きの場合にはグリフ矩形の上端中央にあります。テキストの位置は下へ向かって進みます。その進行幅はグリフ高さによって決定され、グリフ幅には依存しません(図6.3参照)。>角度alphaは通常の縦書きテキストについては0°です。いいかえれば、縦書きのフォントでalpha=0°ならば下へ、すなわち-90°の方向に向かって進むということです。>上述の違いのため、クライアントコード側では下記のpCOSコードを用いて記述方向を考慮に入れる必要があります(テキストが縦に並んでいるからといって、それが実際には縦書きのフォントを用いているとは限らないことに留意して下さい):count = p.pcos_get_number(doc, "length:fonts");for (i=0; i < count; i++){if (p.pcos_get_number(doc, "fonts[" + id + "]/vertical")){/*フォントは縦書きを用いている*/vertical = true;86 6章:テキスト抽出