概要
TET5
互換分解互換等価なキャラクタどうしは、同一の抽象キャラクタを表しますが、その体裁や動作は互いに異なっている可能性があります。例としては、アラビア文字キャラクタ?の単独形(等)と位置依存表示形(・・等)が挙げられます。互換等U+0633価キャラクタは組版上互いに異なるものです。この組版情報を除去すると、情報が失われる可能性がありますが、ある種の応用の場合(検索等)には処理を単純化できるでしょう。Unicodeコードチャートでは、互換マッピングには記号ALMOST EQUAL TO付いており、その後に、分解名(「タグ」ともいいます)がのように山括弧にくくって書かれています。タグ名が書かれていないものについては、と見なされます。このタグ名は、表7.5のオプション名と同一です。いくつかの例に見られるように、分解の結果、1個のキャラクタが複数キャラクタ列へ変換されることもあります。注記PDF文書によっては、グリフが、分解されていないUnicode値へではなく、分解済みキャラクタ列へすでにマップされている場合もあることに留意してください。その場合にはdecomposeオプションは出力に対して効力を持ちません。分解のさまざまな例TETにおける分解は、文書オプションdecomposeで制御できます。1種類の分解が、全Unicodeキャラクタに対してではなく、いくつかのキャラクタに対してのみ適用されるよう制限することもできます。ある分解の適用対象となる部分集合を、そのドメインといいます。表7.5に、すべてのUnicode分解に対するサブオプションを例とともに挙げます。以下のdecomposeオプションの例は、TET_open_document( )に対するオプションリストの中で与える必要があります。decomposeオプションリスト内の分解名は表7.5から取られます。すべての分解を無効化:decompose={none}?U+FEB2?U+FEB4?U+FEB3??U+00C4 U+2248が全角(ダブルバイト)・半角キャラクタを温存:decompose={wide=_none narrow=_none}すべての正準等価キャラクタをおのおの対応キャラクタへマップ:decompose={canonical=_all}下記のオプションリストはcircle分解を有効化しますが、それ以外の分解はすべて無効化します:decompose={none circle=_all}反対に、下記のオプションリストはすべての分解を有効化します(なぜなら、他のオプションを省略するとデフォルトが有効になるからです):decompose={circle=_all}デフォルト分解デフォルトでは、fraction以外のすべての分解が有効になっています。多くのデフォルト分解は_allドメインに対して(すなわちすべてのキャラクタに対して)適用されますが、いくつかは、表7.6に従った、より小さなデフォルトドメインに対して適用されます。分解を扱う正攻法は正規化によることです(111ページの7.3.3「Unicode108 7章:高度なUnicode処理