ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

表10.11 TET_open_page( )・TET_process_page( )のcontentanalysisオプションのサブオプション一覧オプションbidibidileveldehyphenatedropcapsizedropcapratioideographicincludeboxorder説明(キーワード。granularity=glyphの場合には無視されます。右書きキャラクタがページ上に存在している場合にのみ効力を持ちます)断片内の右書き・左書きテキストを並べ替える反転双方向アルゴリズムを制御します(デフォルト:logical):visuallogical断片内の右書き・左書きキャラクタを視覚順に保ちます。すなわち、反転双方向アルゴリズムを適用しません。反転双方向アルゴリズムを適用して、断片内のキャラクタを論理順でもたらします。(キーワード)反転双方向アルゴリズムに対するページのベースレベル(すなわちテキスト進行の主要向き)を指定します(デフォルト:auto):autoテキスト進行の主要向きを、内容に基づいてヒューリスティックに決定します。ltrテキスト進行の主要向きとして左書きを前提します(欧文文書など)rtlテキスト進行の主要向きとして右書きを前提します(ヘブライ文字・アラビア文字文書など)(論理値)trueの場合には、ハイフン区切りされた単語が特定され、ハイフンを挟むテキスト断片どうしが連結されます。ハイフン自体はkeephyphensオプションに従って扱われます。デフォルト:true(float)大きなグリフがドロップキャップとして認識される最小サイズ。ドロップキャップは、区域の先頭の大きなキャラクタで、数行にわたってぶら下がっているものです。それらは、その区域の残りと連結され、その区域内の最初の単語の一部を成します。デフォルト:35(float)ドロップキャップと隣接テキストの文字サイズの最小比率。大きなキャラクタは、そのサイズがdropcapsizeを超えており、かつ、その文字サイズ比率がdropcapratioを超えている場合にドロップキャップとして認識されます。言い換えれば、これはドロップキャップがわたるテキスト行数です。デフォルト:4(ドロップキャップは3行にわたるものが非常に多いですが、行間の分も考慮に入れる必要があります)(キーワード。非推奨)TET 4では、splitのデフォルト動作を避けるためにこのオプションをkeepに設定することが推奨されていました。TET 5ではgranularity=wordの場合に表意文字キャラクタを単語境界として扱わなくなりましたので、このオプションは必要なくなりました。(整数)複数の包含枠を与えているとき(オプションincludebox参照)、このオプションは、枠の順序が単語検出機能に対しどのような効力を持つかを制御します(デフォルト:0):0ページ内容を分析する際に、包含枠順序は無視します。結果は、あたかも包含枠群の外のテキストがすべて削除されたのと同じになります。これは、ほしくないテキスト(ヘッダ・フッタなど)を除去しつつ、単語検出機能には何の影響も与えないようにするために有用です。1包含枠順序を、単語と区域を生成する際には考慮に入れますが、区域順序を決定する際には考慮しません。1個の単語が複数の枠に属することは決してありません。できた区域群は、論理順に並べ替わります。枠が重なりあっている場合には、そのテキストはリスト内で最も先に現れた枠に属します。それ以外では、オプションリスト内における包含枠の順序は考慮されません。この設定は、テキストをフォームから抽出する時や、テキストを表組から抽出する時や、複雑なレイアウトにおいて包含枠が重なりあっている場合に有用です。2包含枠順序を、すべての操作について考慮します。各包含枠の内容は他の枠とは独立に扱われ、できたテキストは包含枠の順序に従って連結されます。これは、フォームからテキストを特定の順序で抽出したい時や、雑誌レイアウト内の記事段組を定義済順序で抽出したい時に有用です。こうした場合には、包含枠を適切な順序で指定するために、そのページレイアウトに関する事前の知識が必要です。10.4ページ関数195