ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

7高度なUnicode処理7.1 Unicodeのさまざまな重要概念この節では、Unicodeに関する基本的な情報を提供します。TETにおけるテキスト処理はUnicode規格に大いに依存しているからです。Unicode Webサイトではさらに詳しい情報が大量に提供されています:www.unicode.orgキャラクタとグリフテキストを扱う際には以下の概念をはっきり区別することが重要になります:>キャラクタは、言語の中で情報を伝える最小の単位です。代表例としてはラテンアルファベットの音素文字や、日本語の音節文字、中国語の表意文字が挙げられます。キャラクタは意味を持ちます。すなわち意味的な実体であるといえます。>グリフは、1つないし複数のキャラクタを表す形状です。グリフは外観を持ちます。すなわち表象的な実体であるといえます。キャラクタとグリフとの間には一対一の対応は存在しません。たとえば、合字は1つのグリフですが複数のキャラクタを表します。その一方では、1つのグリフを場面に応じて異なるキャラクタを表すために使いまわしたりすることもあります(つまりキャラクタどうしの形が同じという場合が存在します。図7.1参照)。TETのUnicode後処理によって、グリフ群と生成キャラクタ群との関係はさらに変わることもあります。たとえば、分解によって1個のキャラクタが複数のキャラクタに変換されることがあり、また、字形統合によってキャラクタが除去されることもあります。こうした理由から、キャラクタとグリフの間にはいかなる特定の関係をも前提することはできません。BMPとPUA Unicodeベースの環境では以下の用語が頻出します:図7.1グリフとキャラクタの関係7.1 Unicodeのさまざまな重要概念99