ブックタイトルTET5
- ページ
- 111/228
このページは TET5 の電子ブックに掲載されている111ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている111ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
????????????7.3.3 Unicode正規化Unicode規格では、正準等価と互換等価の概念に基づき(これらは107ページの7.3.2「Unicode分解」で説明しています)、4種類の正規形を定義しています。すべての正規形は、結合記号を特定の順序に置き、分解と合成を異なる方式で適用します:>正規形C(NFC)は、正準分解の後に正準合成を適用します。>正規形D(NFD)は、正準分解を適用します。>正規形KC(NFKC)は、互換分解の後に正準合成を適用します。>正規形KD(NFKD)は、互換分解を適用します。正規形は、Unicode規格付録#15「Unicode Normalization Forms」で定義されています(www.unicode.org/versions/Unicode8.0.0/ch03.pdf#G21796・www.unicode.org/reports/tr15/を参照)。TETは4種類のUnicode正規形すべてに対応しています。Unicode正規化はnormalize文書オプションで制御できます。例:normalize=nfcTETはデフォルトでは正規化を適用しません。decomposeオプションとnormalizeオプションはかち合うおそれがあることから、normalizeオプションをnone以外の値に設定するとデフォルト分解は無効化されます。正規形の選択はアプリケーションの要請に依存します。たとえば、いくつかのデータベースはテキストをNFCで受け付けます。NFCは、Web上のUnicodeテキストについて推奨される形式でもあります。表7.7に、さまざまなキャラクタに対する正規化の効果を示します。表7.7 Unicode正規形の例正規化前NFC NFD NFKC NFKD?U+00C4?U+00C4?U+0041 U+0308?U+00C4?U+0041 U+0308?U+0041 U+0308?U+00C4?U+0041 U+0308?U+00C4?U+0041 U+0308?U+0308 U+0041?U+0308 U+0041?U+0308 U+0041?U+0308 U+0041?U+0308 U+0041?U+FB01?U+FB01?U+FB01??U+0066 U+0069? ?U+0066 U+0069??U+0033 U+2075??U+0033 U+2075??U+0033 U+2075??U+0033 U+0035? ?U+0033 U+0035?U+212B?U+00C5?U+0041 U+030A?U+00C5?U+0041 U+030A?U+2122?U+2122?U+2122??U+0054 U+004D? ?U+0054 U+004D?U+2163?U+2163?U+2163??U+0049 U+0056? ?U+0049 U+00567.3 Unicode後処理111