ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

9.3 TETMLの詳細を制御さまざまなTETMLモードTETMLは、さまざまなモードで生成することができます。各モードは、含むフォント・位置情報の量が異なり、また、テキストをより大きな単位(粒度)にまとめるやり方が異なっています。このTETモードは、各ページに対して個別に指定することが可能です。多くの場合、TETMLファイルは全ページに対するデータを同一のモードで含みます。以下のTETモードは、テキスト・画像情報およびインタラクティブ要素を含んでいます:> glyphモード:各グリフのテキスト・フォント・座標・色を含み、単語グループ化や構造情報を一切含まない低レベルな種類です。これはページ上の元のテキスト情報を表していますので、デバッグや分析の用途を想定しています。> wordモード:テキストが単語ごとにまとめられ、各単語の座標を持つBoxエレメントが加わります。フォント情報は一切得られません。このモードは、単語ベースで動作するアプリケーションに適しています。約物キャラクタはデフォルトでは独立した単語として扱われますが、この動作はページオプションで変えることもできます(91ページの「欧文テキストの単語境界検出」を参照)。テキストの行をLineエレメントで特定させることも可能です。これはtetmlページオプションで制御されます。> wordplusモード:wordモードと似ていますが、単語内の全グリフのフォント・座標の詳細と色情報が加わります。座標は、topdownページオプションに従って、左下隅か左上隅からの相対位置で表されます。wordplusモードでは、フォントの使われ方を分析し、単語内でのフォントや文字サイズなどの変化を追うことが可能です。wordplusは、関連するTETMLエレメントをすべて含む唯一のTETMLモードですので、あらゆる種類の処理作業に適しています。その半面、これはTETML内に大量の情報を含みますので、最も大きな量の出力を生成します。> lineモード:個別のLineエレメントを構成するすべてのテキストを含みます。そのうえ、複数の行が1個のParaエレメント内にまとめられることもあります。lineモードは、受取先アプリケーションが行ベースのテキスト入力しか扱えない場合にのみ推奨します。> pageモード:段落レベルから始まる構造情報を含みますが、フォント・座標の詳細は一切含みません。なお、pageモードにおけるレイアウト検出の結果は、wordモードと若干異なる場合があります。なぜなら、画像と移動先に対するアンカーの扱いが異なるからです。画像情報にのみ関心がある場合には、TETML内の他の種類の出力をスキップすることも可能です。> imageモード:配置画像と画像リソースに関する情報を含みますが、テキスト・フォント関連のエレメントもインタラクティブ要素に関する情報も一切含みません。表9.1に、各種テキストモード内に存在するTETMLエレメントを挙げます。TETMLモードを選択TETコマンドラインツール(17ページの2.1「コマンドラインオプション」を参照)では、望むページモードを、--tetmlオプションに対する引数として指定することができます。下記のコマンドは、wordplusモードでTETML出力を生成します。tet --tetml wordplus file.pdfTETライブラリでは、TETMLモードは直接指定することはできず、オプション群の組み合わせとして指定します:9.3 TETMLの詳細を制御143