ブックタイトルTET5
- ページ
- 104/228
このページは TET5 の電子ブックに掲載されている104ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている104ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
7.3 Unicode後処理TETは、抽出したテキストを構成するUnicodeキャラクタ群を微調整するためのさまざまな制御手段を提供しています。この節で述べる各種の後処理ステップは、Unicode規格で定義されているものです。これらはTETで利用可能であり、以下の順序で処理されます:>字形統合は、fold文書オプションによって制御され、特定のキャラクタ群に対して温存・除去・置換のいずれかを行います。例:単語の分割に用いられているハイフンを除去。アラビア文字のタトウィールキャラクタを除去。>分解は、decompose文書オプションによって制御され、1個のキャラクタを1個ないし複数の等価なキャラクタへ置き換えます。例:合字を分割。全角英数・記号をおのおの対応する非全角キャラクタへマップ。>正規化は、normalize文書オプションによって制御され、テキストを正規化Unicode形式の一つへ変換します。例:字母キャラクタと分音キャラクタを結合して通用キャラクタ化。オーム記号をギリシャ文字オメガへマップ。Unicode後処理は、granularity=glyphの場合には完全に無効化されます。7.3.1 Unicode字形統合字形統合は、1個ないし複数のUnicodeキャラクタを処理して、各キャラクタに対して特定の操作を適用します。以下の操作が利用可能です:>キャラクタを温存。>キャラクタを除去。>別の(固定の)キャラクタへ置き換え。字形統合は連鎖されません:字形統合の出力が、利用可能な字形統合によってさらに処理されることはありません。字形統合は、Unicodeテキスト出力に対してのみ効力を持ち、TET_char_info構造内で、またはTETMLの