ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

6テキスト抽出6.1 PDFのさまざまな文書領域PDF文書は、ページ内容だけではなく、それ以外の多くの場所にテキストを含んでいる可能性があります。たいていのアプリケーションはページ内容のみを扱いますが、他の文書領域が必要な状況も多くあります。ページ内容は、最も活躍する関数get_text( )とget_image( )で取得することができ、一方、他の文書領域からテキストを取得するには内蔵のpCOSインタフェースが主要な役割を務めます。この節では以下、TETライブラリとTETMLでの領域検索について情報を提供します。あわせて、これらの文書領域をAcrobat X/XI/DCで検索する方法もまとめます。これはAcrobatで検索ヒットを見つけるために重要です。ページ上のテキストページ内容はPDF内の主要なテキストです。ページ上のテキストはフォントで視覚表現され、PDF内で利用可能な多様なエンコーディング技法の一つを用いて符号化されています。> Acrobatでの表示方法:ページ内容はつねに表示されています。> Acrobat X/XI/DCで一個のPDFを検索する方法:「編集」→「検索」または「編集」→「高度な検索」。AcrobatがグリフをUnicode値へ正しくマップできない文書内のテキストを、TETは処理できる可能性があります。このような状況では、TETをベースにしたTET Pluginを利用することができます(47ページの4.1「Adobe Acrobat用無償TETPlugin」を参照)。TET Pluginは、その自前の検索ダイアログを「Plug-Ins」→「PDFlibTET Plugin...」→「TET Find」で提供します。ただしこれは、完全な検索機能を提供するようには意図されていません。> Acrobat X/XI/DCで複数のPDFを検索する方法:「編集」→「高度な検索」の後、「詳細オプションを表示」の中で「検索する場所:」の下で「以下の場所にあるすべてのPDF文書」を選択し、PDF文書群が入っているフォルダへブラウズ。> TETライブラリ用サンプルコード:extractorミニサンプル> TETMLエレメント:/TET/Document/Pages/Page/Content定義済み文書情報項目固有の文書情報項目はキー/値対です。> Acrobat X/XI/DCでの表示方法:「ファイル」→「プロパティ...」> Acrobat X/XI/DCで一個のPDFを検索する方法:なし> Acrobat X/XI/DCで複数のPDFを検索する方法:「編集」→「高度な検索」の後、ダイアログの下端近くの「詳細オプションを表示」をクリック。「検索する場所:」プルダウンでPDF文書群のフォルダを選択し、プルダウンメニュー「その他の条件」で「作成日」「更新日」「作成者」「タイトル」「サブタイトル」「キーワード」のいずれかを選択。> TETライブラリ用サンプルコード:dumperミニサンプル> TETMLエレメント:/TET/Document/DocInfoカスタム文書情報項目標準項目に加えて、カスタム文書情報項目を定義することもできます。> Acrobat X/XI/DCでの表示方法:「ファイル」→「プロパティ...」→「カスタム」(無償のAdobe Readerでは利用できません)6.1 PDFのさまざまな文書領域73