ブックタイトルTET5
- ページ
- 192/228
このページは TET5 の電子ブックに掲載されている192ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている192ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
表10.10 TET_open_page( )・TET_process_page( )のページオプション一覧オプションdocstyleemptycheckexcludeboxfontsizerange説明(キーワード)レイアウト検出エンジンがさまざまなパラメタを選択するために用いるヒント。これらのパラメタは、文書が以下の分類の1つに属する状況においてレイアウト分析を最適化します:文書がこれらの分類の1つにあてはまることがわかっている場合には、このオプションに適切な値を与えればレイアウト検出結果は非常に向上します。このオプションは高度なレイアウト認識を有効にします(デフォルト:none):book典型的な本businessビジネス文書cad技術または建築図面。通常、非常に断片化しています。fancy複雑なレイアウトによる装飾的なページforms構造化されたフォームgeneric特に特徴を指定しない最も一般的な文書分類です。magazines雑誌記事none特定の文書スタイルがわかっておらず、高度なレイアウト認識は無効にされます。nativeレイアウト検出を無効化して、内容を、ネイティブなページ内容順序のまま返します。これは、テキストがページ全体にわたって配置されており、列検出が望ましくなく、行ごとにテキスト抽出を行いたい、フォームのようなレイアウトに対して有用でしょう。papers新聞science科学記事searchengineアプリケーションは検索エンジンインデックス生成機能やそれに類似のアプリケーションであり、ページの単語一覧をなるべく速く取得することが主たる関心。表組・ページ構造認識は無効化されます。spacegrid視覚レイアウトがスペースキャラクタ群を用いて生成される、リスト指向のレポート(メインフレームシステムで生成されることが多い)。この種の文書に対しては、影付き検出や洗練された単語境界検出といった多くのヒューリスティックは必要ないので、このオプションによってテキスト抽出を高速化できます。(論理値)trueの場合、通常の内容抽出が無効化されます。そのかわりに、includeboxオプションで与えられた枠を用いて、その枠が何らかのテキストか画像かベクトルグラフィックを内容として持っているかどうかがチェックされます(ただ1個のincludeboxにのみ対応)。includeboxオプションが与えられていない場合には、クリッピング領域全体がチェックされます。これを活用すると空ページを識別できます。以下のオプションは無視されます:granularity・engines・fontsizerange。クリッピングオペレータ群は無視されます。このチェックの結果は、TET_get_text( )を呼び出すと、ページ内容ではなく文字列emptyかnotemptyのいずれか一方を返しますので、それを用いてチェックできます。デフォルト:false(矩形のリスト)指定した矩形を合わせた領域を、テキストと画像の抽出から除外します。デフォルト:空(float 2個のリスト)テキストの最小・最大文字サイズを指定した2個の数値。この区間を外れたサイズのテキストは無視されます。最大値にキーワードunlimitedを指定すると、上限なしという意味になります。デフォルト:{ 0 unlimited }192 10章: TETライブラリAPIリファレンス