ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

2.3コマンドラインの例以下の例は、TETコマンドラインオプションのいくつかの有用な組み合わせを演示しています。2.3.1テキストを抽出PDF文書file.pdfからテキストをUTF-8形式で抽出し、それをfile.txtに格納:tet file.pdfテキスト抽出から先頭ページと末尾ページを除外:tet --firstpage 2 --lastpage last-1 file.pdf日中韓CMapが置かれているディレクトリを与えます(日中韓テキスト抽出では必須です):tet --searchpath /usr/local/cmaps file.pdfPDFからテキストをUTF-16形式で抽出し、それをファイルfile.utf16に格納:tet --format utf16 --outfile file.utf16 file.pdf1個のディレクトリの中のすべてのPDFファイルからテキストを抽出し、生成される*.txtファイル群を別のディレクトリ(すでに存在している必要があります)の中へ格納:tet --targetdir out in/*.pdf2個のディレクトリからのすべてのPDFファイルからテキストを抽出し、生成された*.txtファイル群を、照応する入力文書と同じディレクトリの中へ格納:tet --samedir dir1/*.pdf dir2/*.pdfテキスト抽出をページ上の特定の領域に限定:tet --pageopt "includebox={{0 0 200 200}}" file.pdfさまざまなコマンドラインオプションを内容として持つレスポンスファイルを用いて、カレントディレクトリ内のすべてのPDF文書を処理します(ファイルoptionsにコマンドラインオプション群が入っています):tet @options *.pdf2.3.2画像を抽出file.pdfから画像群をページ志向な方式で抽出し、それらをディレクトリout内へ格納:tet --targetdir out --image file.pdffile.pdfから画像群をリソース志向な方式で抽出し、それらをディレクトリout内へ格納:tet --targetdir out --image --imageloop resource file.pdffile.pdfから画像群を画像結合なしに抽出。これは、画像処理のためのページオプション群のリストを与えることで実現できます:22 2章: TETコマンドラインツール