ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

5.3代表的シナリオのための推奨方策TETにはさまざまなオプションがあり、それらを活用することで、操作のさまざまな面を制御することが可能です。この項では、TETの典型的な応用シナリオについて、いくつかの推奨方策を示します。以下でふれる関数やオプションについて詳しくは、163ページの10章「TETライブラリAPIリファレンス」を参照して下さい。速度を最適化場合によっては、とくに検索エンジンのためにPDFをインデックスする際には、テキスト抽出の速度が最重要であり、最適出力を得ることよりも優先されます。TETのデフォルト設定は、可能なかぎり最良の出力が得られるように選択されていますが、処理を速めるように調整することも可能です。TET_open_page( )・TET_open_document( )でオプションを選ぶことによりテキスト抽出のスループットを最大化する方法をいくつか挙げます:> docstyle=searchengineこのページオプションは、検索エンジンのためのインデックス処理に影響を及ぼさないやり方で出力品質を落とすことによって動作を高速化するようにいくつかの内部パラメタをセットアップします。> engines={image=false textcolor=false}画像抽出とテキストカラー検出が必要ない場合、動作を高速化するために内部処理ステップ群をこの文書オプションで無効化できます。> contentanalysis={merge=0}このページオプションは、時間のかかるストリップと区域の結合ステップを無効にするもので、代表的なファイルに対する処理時間をデフォルト設定の60%程度に低減します。ただし、内容がページ上に任意の順序でばらまかれているような文書では、テキストが論理順に抽出されなくなるところがあるかもしれません。> contentanalysis={shadowdetect=false}このページオプションは、冗長な影付き・擬似太字テキストの検出を無効にします。これによっても、処理時間を短縮できる場合があります。> TETMLを生成する際には、下記の文書オプションを用いて、さまざまなインタラクティブPDF機能に対するTETMLエレメントの生成を無効化することも可能です:tetml={elements={annotations=false bookmarks=false destinations=false fields=falsejavascripts=false}}単語か行レイアウトか折り返し可能テキストか以下のように、応用の種類によって、望ましい出力の種類は異なります(ハイフネーションされた単語はつねにこれらの設定でハイフン除去されます):>個々の単語(レイアウト無視):検索エンジンでは、レイアウトがらみの事柄は関心の対象とはならず、テキストの中の単語だけが関心の対象になります。このような場合には、TET_open_page( )でgranularity=wordを用いて、TET_get_text( )を1回呼び出すごとに1個の単語が抽出されるようにします。>行レイアウトを温存:TET_get_text( )を1回呼び出すごとに1つのページ全体のテキスト内容が抽出されるようにするには、TET_open_page( )でgranularity=pageを用います。テキストの行と行の間はそれぞれ、ラインフィードキャラクタU+00A0で区切られるので、既存の行構造が保持されます。>折り返し可能テキスト:改行を避け、抽出されたテキストの折り返しを実現するためには、文書オプションlineseparator=U+0020とページオプションgranularity=pageを用います。TET_get_text( )を一回呼び出せばページ内容全体が取得できます。デフォルトでは、段落どうしはU+000Aで区切られます。他の段落区切りを入れさせたい場合5.3代表的シナリオのための推奨方策69