ブックタイトルTET5
- ページ
- 137/228
このページは TET5 の電子ブックに掲載されている137ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている137ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
9TETマークアップ言語(TETML)9.1 TETMLを生成PDF文書の内容をプログラミングインタフェース経由で提供するのみならず、TETでは、XML出力を生成することも可能です。TETが生成するこのXML出力をTETマークアップ言語(TETML)と呼んでいます。TETMLは、PDFページ群のテキスト内容を含んでいるほか、テキスト位置・フォント・文字サイズなどの情報も含んでいることがあります。TETがページ上に表組のような構造を検出したときは、その表組はTETML内で表・表行・セルエレメントの階層構造として表されます。なお、表組情報はTETプログラミングインタフェースでは得ることができず、TETMLを通じてのみ得ることができます。TETMLは、画像・色空間、および注釈・フォームフィールド・しおりなどインタラクティブ要素に関する情報も含んでいます。PDF文書をTETMLへ変換するには、TETコマンドラインツールかTETライブラリのいずれかを用いることができます。いずれの場合にも、TETML生成の詳細を制御するために利用できるさまざまなオプションがあります。TETコマンドラインツールでTETMLを生成TETコマンドラインツールを用いる場合は、--tetmlオプションでTETMLオプションを生成することができます。下記のコマンドはTETML出力文書file.tetmlを生成します:tet --tetml word file.pdfさまざまなオプションを用いて、文書の一部分のページのみを変換したり、処理オプションを与えたりすることもできます。詳しくは、17ページの2.1「コマンドラインオプション」を参照してください。TETライブラリでTETMLを生成TETライブラリでは、API呼び出しの簡単な連鎖を用いてTETML出力を生成することができます。tetmlミニサンプルでは、TETMLを生成するための正則的なコードシーケンスを演示しています。このサンプルプログラムは、すべての対応言語バインディングで利用可能です。TETMLはページごとに生成されますので、クライアントがページ群の部分集合のみを処理することを選択することも可能です。最後のページを処理した後にTETMLトレーラを生成する必要があります:final int n_pages = (int) tet.pcos_get_number(doc, "length:pages");/*文書内のすべてのページについてループ*/for (int pageno = 1; pageno <= n_pages; ++pageno){tet.process_page(doc, pageno, pageoptlist);}/*これは最後のページ関連の呼び出しと一緒にすることも可能です*/tet.process_page(doc, 0, "tetml={trailer}");TET_open_document( )にfilenameオプションが与えられている場合、TETML出力は、指定されたディスクファイルへ書き込まれます。そうでない場合には、TETMLはメモリ内に蓄積され、TET_get_tetml( )を用いて取り出せます。これは、TETMLストリーム全体に9.1 TETMLを生成137