ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

1.黒四角■はnullバイトの意。組文字とキャラクタ列グリフのなかには、複数のキャラクタの列にマップされるものがあります。たとえば合字は、その構成キャラクタ群に従って複数のキャラクタにマップされます。しかし組文字は分割してよい場合とよくない場合があり(図7.1のローマ数字等)、それはフォント内・PDF内の情報によって決まるとともに、decompose文書オプションにも依存します(104ページの7.3「Unicode後処理」を参照)。適切ならば、TETは組文字を構成キャラクタ列に分割します。このキャラクタ列は、TET_get_text( )が返すテキストに組み込まれます。各キャラクタごとに、その元となったグリフ(群)に関する情報はTET_get_char_info( )で得ることができますが、その際、そのキャラクタがキャラクタ列内の先頭なのかそれとも後続なのかという情報も一緒に得られるようになっています。位置情報はキャラクタ列内の先頭キャラクタに対してのみ返されます。キャラクタ列内の後続キャラクタは固有の位置情報・幅情報というものを一切持たないので、先頭キャラクタと併せて処理する必要があります。対応グリフを持たないキャラクタページ上のグリフは、そのすべてが1つないし複数のUnicodeキャラクタにマップされますが、逆にTETが出力するキャラクタは、そのすべてが実在のグリフにマップされているとは限りません。対応するグリフを持つキャラクタを有形キャラクタ(real character)と呼び、持たないものを無形キャラクタ(artificialcharacter)と呼びます。このような、直接対応するグリフがないのに出力される無形キャラクタは、いくつかの種類に分類できます。>組文字(上述)は複数のUnicodeキャラクタの列にマップされますが、このとき列内の先頭キャラクタは実在のグリフに対応しますが、残りのキャラクタは対応グリフを持ちません。> lineseparator・wordseparator・paraseparatorオプションで挿入される区切りキャラクタは、対応グリフを持たない無形キャラクタです。7.1 Unicodeのさまざまな重要概念101