ブックタイトルTET5
- ページ
- 94/228
このページは TET5 の電子ブックに掲載されている94ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている94ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
6.7レイアウト分析TETは、最も可能性の高いテキスト抽出順序を決定するために、ページ上のテキストのレイアウトを分析します。この自動処理は、いくつかのオプションで支援することも可能です。文書の性質について事前の知識がある場合には、適切なオプションを与えることによってテキスト抽出結果を向上させることができます。各種文書スタイルさまざまなレイアウトやスタイルの文書を処理するために、いくつかの内部パラメタが利用可能です。たとえば、新聞のページは大量のテキストが多段組になっていることが多く、事業報告書は余白に注釈がしばしば現れる、などです。TETは、いくつかの種類の文書に対する定義済み設定を含んでいます。これらの設定は、TET_open_page( )でオプションを用いて有効にすることができます:docstyle=papers入力文書の種類がわかっている場合には、docstyleページオプションおよび(あてはまる場合には)layouthintページオプションの適切な値を与えることを強く推奨します。docstyleオプションを与えれば、高度なレイアウト認識アルゴリズムが有効になります。ただし、このオプションに不適切な値を与えてしまうと逆に生成結果が悪化する場合もあります。docstyleオプションでは以下の種類が利用可能です(表6.5にいくつか典型的な文書スタイルの例を挙げます):> book:通常のページによる典型的な書籍レイアウト> business:ビジネス文書> Cad:技術または建築図面。通例、非常に断片化しています。fancy:複雑な、またときにイレギュラーなレイアウトを持つ、意匠を凝らしたページ> forms:構造化されたフォーム> generic:とくに分類のない最も一般的な文書> magazines:雑誌の記事。多くは3段組ないしそれ以上で、画像やグラフィックがちりばめられている> papers:多段組・大紙面・小活字の新聞> science:科学記事。多くは2段組ないしそれ以上で、画像・式・表組などがちりばめられている> searchengine:この分類は、入力文書の特定の種類を指すものではなく、TETを検索エンジンのためのインデクサの典型的要請に最適化します。生テキストのみを発出し、処理を高速化するために、いくつかのレイアウト検出機能が無効化されます。たとえば、表組・ページ構造認識が無効化されます。> spacegrid:この分類は、メインフレームシステムでよく生成されるリスト指向のレポートを対象としています。この種の文書の特徴は、視覚レイアウトが、テキストの明示的な位置合わせではなく、空白キャラクタによって作り出されていることです。この種の文書を処理する際には、いくつかの処理ステップ(影付き検出など)をスキップしうるので、テキスト抽出が高速化されえます。最も適切な文書スタイルを選ぶことによって、処理を速め、テキスト抽出結果を向上させられる可能性があります。複雑なレイアウト文書の種類によっては、非常に凝ったページレイアウトを用いるものがあります。たとえば雑誌や定期刊行物では、TETはページ上の段組間の関係を正しく94 6章:テキスト抽出