ブックタイトルTET5
- ページ
- 193/228
このページは TET5 の電子ブックに掲載されている193ページの概要です。
10秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている193ページの概要です。
10秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
表10.10 TET_open_page( )・TET_process_page( )のページオプション一覧オプションgranularityincludeboxlayersignoreartifactsignoreinvisibletextimageanalysislayoutanalysislayouteffort説明(キーワード)TET_get_text( )が返すテキスト断片の粒度。glyph以外のすべてのモードで単語検出機能が有効になります。詳しくは90ページの「テキストの粒度」を参照してください(デフォルト:word):glyphwordlinepage各断片はそれぞれ1個のグリフの結果を内容として持ちますが、それが複数のキャラクタになる場合もあります(合字の場合など)。各断片はそれぞれ、単語検出機能によって決定された1個の単語を内容として持ちます。各断片はそれぞれテキスト1行を、ないしはそれにできるだけ似たものを内容として持ちます。連続する2個の単語の間には単語区切りキャラクタが挿入されます。各断片はそれぞれ1個のページを内容として持ちます。単語・行・段落区切りキャラクタが適宜挿入されます。(論理値。タグ付きPDF文書に対してのみ意味を持ちます)ページ装飾としてマークされているテキストと画像を無視します。これを利用すると、ページ装飾としてマークされている、重要でないページ内容をスキップできます。デフォルト:false(論理値)trueの場合には、表現モード3(不可視)のテキストは無視されます。デフォルト:false(不可視テキストは、スキャンされたページとそのOCRテキストを内容として持つ画像+テキストPDFで主に使用されているからです)(オプションリスト)表10.13に従った、高レベル画像処理を制御するためのサブオプション群のリスト。(矩形のリスト)テキストと画像の抽出を、指定した矩形を合わせた領域に限ります。デフォルト:切り抜き領域全体(キーワード)レイヤー内部(オプショナル内容としても知られます)のページ内容の扱い。使えるキーワード(デフォルト:visible):allinvisiblevisibleレイヤーにかかわらずすべてのページ内容を抽出。ページ上の複数のレイヤーの内容が重なり合うと、テキストが意味不明になったり、画像連結が失敗したりすることもあります。デフォルトで不可視のすべてのレイヤーの内容を抽出し、その他のすべてのレイヤーを無視。デフォルトで可視のすべてのレイヤーの内容を抽出し、その他のすべてのレイヤーを無視。(オプションリスト。granularity=glyphの場合には不可)表10.12に従った、レイアウト検出機能を制御するためのサブオプション群のリスト。(キーワード)レイアウト認識の品質/パフォーマンスのトレードオフを制御します。レイアウト認識は、努力を増せば向上できますが、これによって操作は遅くなるおそれがあります。このレイアウト認識努力を、キーワードnone・low・medium・high・extraで制御できます。デフォルト:low10.4ページ関数193