ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

7.3 Unicode後処理TETは、抽出したテキストを構成するUnicodeキャラクタ群を微調整するためのさまざまな制御手段を提供しています。この節で述べる各種の後処理ステップは、Unicode規格で定義されているものです。これらはTETで利用可能であり、以下の順序で処理されます:>字形統合は、fold文書オプションによって制御され、特定のキャラクタ群に対して温存・除去・置換のいずれかを行います。例:単語の分割に用いられているハイフンを除去。アラビア文字のタトウィールキャラクタを除去。>分解は、decompose文書オプションによって制御され、1個のキャラクタを1個ないし複数の等価なキャラクタへ置き換えます。例:合字を分割。全角英数・記号をおのおの対応する非全角キャラクタへマップ。>正規化は、normalize文書オプションによって制御され、テキストを正規化Unicode形式の一つへ変換します。例:字母キャラクタと分音キャラクタを結合して通用キャラクタ化。オーム記号をギリシャ文字オメガへマップ。Unicode後処理は、granularity=glyphの場合には完全に無効化されます。7.3.1 Unicode字形統合字形統合は、1個ないし複数のUnicodeキャラクタを処理して、各キャラクタに対して特定の操作を適用します。以下の操作が利用可能です:>キャラクタを温存。>キャラクタを除去。>別の(固定の)キャラクタへ置き換え。字形統合は連鎖されません:字形統合の出力が、利用可能な字形統合によってさらに処理されることはありません。字形統合は、Unicodeテキスト出力に対してのみ効力を持ち、TET_char_info構造内で、またはTETMLのエレメント群で報告されるグリフの集合に対しては効力を持ちません。たとえば、あるUnicodeキャラクタ群が字形統合によって除去された場合でも、その元のキャラクタ群を生み出したそれに対応するグリフ群は報告されます。読みやすくするために、以下の表の中の例では、foldオプションリストのサブオプションを個別に記しています。複数の字形統合を適用したいときには、これらのサブオプションを連結して単一の大きなfoldオプションリストにする必要があることに留意してください。foldオプションを複数回与えてはいけません。たとえば、下記は誤りです:fold={ {[:blank:] U+0020} } fold={ {_dehyphenation remove} }誤り!下記のオプションリストは、複数の字形統合に対する正しい文法を示しています:fold={ {[:blank:] U+0020 } {_dehyphenation remove} }字形統合のさまざまな例表7.2に、字形統合のさまざまな応用を演示するさまざまなfoldオプションの例を挙げます。これらのオプションは、open_document( )に対するオプションリストの中で与える必要があります。TETは、全Unicodeキャラクタから選択された部分集合に対して字形統合を適用することもできます。これをUnicode集合といいます。104 7章:高度なUnicode処理