ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

6.5双方向アラビア文字・ヘブライ文字テキストTETは、アラビア文字やヘブライ文字といった右書き用字系による文書からテキストを正しく抽出するために、追加の処理を行います。こうした用字系ではしばしば左書きテキストが挿入されますので(数等)、そのような文書は、双方向であるといいます。双方向テキストの抽出には、以下に説明する処理ステップの一つないし複数が関与します。6.5.1双方向の一般的性質右書き・双方向テキストを並べ替え右書きの並びと左書きの並びは、論理的なテキストの正しい並びを形成するよう並べ替える必要があります。粒度がword以上の場合、下記のページオプションを用いると、TETはテキストを論理順に発出します(これがデフォルト設定です):contentanalysis={bidi=logical}双方向処理は下記ページオプションで明示的に無効化することもできます:contentanalysis={bidi=visual}ページの優勢テキスト向きを決定双方向並べ替えは、単語内のキャラクタ群と行内の単語群に対して効力を持つばかりではなく、それ以外のページレイアウト認識の諸側面に対しても効力を持ちます。混在双方向行は場合によっては、ページ全体が右書きなのか左書きなのかを考慮に入れることなしには安心して並べ替えできないこともあります。この決定を自動的に行うために、TETはページの優勢テキスト向きを調べ、そのページが主に左書きと見なすべきかそれとも主に右書きと見なすべきかにそのアルゴリズムを合わせます。この決定はbidilevelオプションで上書きすることもできます。たとえば下記のオプションリストは、テキストの大多数が左書きのページ上であっても右書き処理を強制します:contentanalysis={bidilevel=rtl}グリフ順序TET_get_char_info( )とTETML内のGlyphエレメントによって返されるグリフ情報は、つねに視覚的順序に従って、すなわち水平ベースラインについては左書きとして並べられます。この左書きグリフ順序によって、クライアントアプリケーションは、テキストの双方向ステータスを調べる必要なしに決め打ちの順序でグリフ座標を受け取ることができます。この動作は、実際のテキスト向きは右書きであるという事実にもかかわらず、アラビア文字やヘブライ文字のフォント内のグリフは概して、その左辺に参照点があり右へ進行しているという現実を反映しています。6.5.2アラビア文字テキストを後処理アラビア文字の表示形を正規化し合字を分解アラビア文字のキャラクタは、最高4種類の形で存在しています。単独形・語頭形・語中形・語尾形です。これらの形は、意味的には同一のキャラクタを表していますが、別々のUnicode値を持っている場合があります。デフォルトではTETは、すべての表示形を、それぞれ対応する正準形へ変換します。表6.3に示すように、decomposeオプションを用いて表示形を温存することもできます(107ページの7.3.2「Unicode分解」を参照)。PDF文書では各表示形は、単独形のUnicodeキャラクタへマップされていることもあれば、表示形のうちの一つ(たとえばその文書のToUnicode CMap内の)へマップされて88 6章:テキスト抽出