ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

7.4追加キャラクタとサロゲートUnicodeの基本多言語面(BMP)の外にある追加キャラクタ、すなわちUnicode値がU+FFFFを超えるキャラクタは、1つのUTF-16値では表すことができず、サロゲートペアと呼ばれる2つのUTF-16値を必要とします。追加キャラクタの例としては、U+1DXXXにあるさまざまな数学記号・音楽記号や、U+20000から始まる日中韓の拡張キャラクタが挙げられます。TETはまた、PDF文書内でUnicodeマッピングが一切見つからなかったグリフにUnicode値を割り当てるために補助私用領域を使用します。デフォルトでは、これらのキャラクタはUnicode置換キャラクタU+FFFDによって置き換えられます。しかし、オプションを用いると、それらはBMP外のUnicode値として、すなわちU+FFFFを超える値として、出力内に出現可能になります(114ページの「マップ不能グリフとTET PUA」を参照)。TETは追加キャラクタを解釈・保持し、それに対応するUTF-32値を、ネイティブなUnicode文字列がUTF-16にしか対応していない言語バインディングにおいても利用可能にしています。1番目のサロゲート値に対してTET_get_char_info( )が返すuvフィールドは、対応するUTF-32値を持ちます。これを利用すれば、UTF-32に対応していないUTF-16環境で作業をしている場合でも追加キャラクタのUTF-32値を直接利用可能です。1番目の(高位)サロゲートと2番目の(低位)サロゲートは保持されます。TET_get_text( )が返す文字列は2個のUTF-16値を内容として持ちます。7.4追加キャラクタとサロゲート113