ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

6.2ページとテキストの視覚情報デフォルト座標系デフォルトではTETは、ページとテキストのすべての視覚情報をPDFの標準座標系で表します。ただし、座標系の原点(ページの外にある場合もある)は、ページの表示可能領域の左下隅に一致させます。正確には、CropBoxが存在するときはその左下隅、そうでないときはMediaBoxの左下隅が原点になります。ページがRotateキーを持つ場合はページ回転が行われます。この座標系はDTPポイントを単位として用います。1 pt = 1 inch / 72 = 25.4 mm / 72 = 0.3528 mm第1座標は右へ増加し、第2座標は上へ増加します。デフォルトでは、TETに与える座標はすべてこの座標系で表したものでなければなりませんし、TETが返す座標もすべてこの座標系で表されたものになります。PDF文書内でその座標が実際どのように表されているかは関係ありません。PDFのページサイズを得る方法についてはpCOSパスリファレンスを参照してください。下向き座標系PDFの上向き座標系とは異なり、グラフィック環境によっては上向き座標系を用いているものがあります。開発者によってはこの方を好む場合があります。下向き座標系の利用を実現するため、TETでは代替座標系を使うことができます。この代替座標系では、すべての関連する座標はページの左下隅ではなく左上隅に対して解釈され、y座標は下向きに増加します。この下向き機能は、TETのユーザが下向き座標系をごく自然に扱えるようにするために設計されています。追加の利点として、下向き座標はAcrobatで表示される座標値と等しくなります(後述)。ページで下向き座標を有効にするには、ページオプションtopdown= {output}を用います。Acrobatで座標を表示Acrobatでページ座標を表示するには以下のように操作します(図6.2参照):> Acrobat X/XI/DCでカーソル座標を表示するには、「表示」→「表示切り替え」→「カーソル座標」を用います。>座標は、Acrobatで現在選択されている単位で表示されます。Acrobat X/XI/DCで表示単位をポイントに変更する(TETで用いられているのと同様に)には、次のように操作します:「編集」→「環境設定」→「単位とガイド」→「単位」へ行き、「ポイント」を選択。この表示されている座標はページの左上隅を原点としており、左下隅を原点に持つPDF・TETのデフォルト座標系とは異なることに留意してください。Acrobatの座標系と揃う下向き座標系を選ぶための方法については前項を参照してください。テキスト抽出の領域デフォルトではTETは、目に見えるページ領域のテキストをすべて抽出します。TET_open_page( )のclippingareaオプション(191ページの表10.10を参照)を用いると、これを任意のPDFページ枠エントリ(TrimBox等)へ変更することができます。キーワードunlimitedを用いると、いかなるページ枠にもかかわりなくすべてのテキストを抽出することができます。デフォルト値cropboxは、Acrobatで目に見える領域内のテキストを抽出するようTETに指示します。テキスト抽出の領域はもっと細かく、任意の数の矩形領域をTET_open_page( )のincludebox・excludeboxオプションで与えることによって指定することもできます。これは部分的なページ内容(選んだ段組等)を抽出したり、あるいは必要ない部分(余白・78 6章:テキスト抽出