ブックタイトルTET5
- ページ
- 196/228
このページは TET5 の電子ブックに掲載されている196ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている196ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
表10.11 TET_open_page( )・TET_process_page( )のcontentanalysisオプションのサブオプション一覧オプション説明(論理値)trueかつdehyphenate=trueの場合には、ハイフン除去された単語の各部分の間のハイフングリフは、TET_get_char_info( )が返すグリフのリスト内とTETML内のGlyphエレメントで温存されます。これは、ページ上のテキストを正確に置き換えたいなど、ハイフンの位置について詳しい情報を必要とするアプリケーションにおいて有用です。これはfold={{_dehyphenationremove}とは異なることに留意してください。後者は、TET_get_text( )が返す論理テキストからハイフンを除去するだけであり、グリフに対しては効力を持ちません。デフォルト:falselinespacing(キーワード)段落内のテキスト行どうしの間の典型的な縦間隔を指定します:small・medium・largeのいずれかです(デフォルト:medium)maxwords(整数かキーワード)ページ上の単語の数が、指定した数以下のときは(キーワードunlimitedを指定すると上限なしになります)、ページ上で検出された区域群は適切に連結され並べ替えされます。ページ上の単語の数が、指定した数を超えているときは、区域は一切作成されず、単語群はページ内容の読み順で抽出されます。後者の場合には処理はより速くなりますが、抽出される単語群の順序は最適ではなくなるおそれがあります。新聞のような、多くの単語を含む大きなページに対しては、このオプションをunlimitedに設定することを推奨します。デフォルト:5000merge(整数)ストリップと区域の連結を制御します(デフォルト:2):0ストリップ作成後の連結なし。これはかなり処理速度を向上させますが、最適未満の出力を生成するおそれがあるほか、影によっては正しく検出されないおそれがあります。1単純な、ストリップを区域へ入れ込む連結:ストリップは、それが区域に重なっており、それでいて、次のストリップ以外のストリップと重なり合っていない場合に(影なしの場合における区域の重なり合いを避けるため)、この区域内へ連結されます。2順序破りなテキストのための高度な区域連結:merge=1に加えて、複数の重なり合う区域は、両区域のテキスト内容が重なり合わないならば、結合されて1個の区域になります。keephyphenglyphsnumericentitiesshadowdetectpunctuationbreaks(キーワード)数値・分数・時刻のような数値実体に対する単語境界検出を制御します(デフォルト:keep):splitその実体を、punctuationbreaksサブオプションに従って分割します。keepその実体を、単語まるごととして温存します。(論理値)trueの場合には、影付きや偽ボールドテキストを作り出している、重なり合うテキスト断片群の冗長なインスタンスは検出され除去されます。デフォルト:true(論理値。granularity=wordの場合のみ)trueの場合には、文字のそばに配置されている約物キャラクタは単語境界として扱われ、そうでない場合にはそれは隣接する単語内へ含められます。たとえば、このオプションはURLとメールアドレスを取り扱う際に有用でしょう。デフォルト:truesuperscript(整数)下付き・上付き検出を制御します(デフォルト:2):0下付き・上付き検出なし1単純な下付き・上付き検出2下付き・上付き検出のための高度なアルゴリズムuseclasses(論理値)trueの場合、単語境界を決定するためにUnicode分類が考慮されます。デフォルト:trueusemetrics(論理値)trueの場合、単語境界を決定するために、グリフ間の間隔が、空白グリフの幅と比較されます。デフォルト:true196 10章: TETライブラリAPIリファレンス