ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

2TETコマンドラインツール2.1コマンドラインオプションTETコマンドラインツールを利用すれば、プログラミングを一切必要とせずに、1つないし複数のPDF文書からテキスト・画像を抽出することができます。出力は、プレーンテキスト(Unicode)形式か、またはTETのXMLベースの出力形式であるTETML形式で生成することができます。このTETプログラムはたくさんのコマンドラインオプションで制御できます。このプログラムは各単語の後に空白キャラクタ(U+0020)を挿入し、また各行の後にU+000Aを、各ページの後にU+000Cを挿入します。これを呼び出すには次のように1つないし複数のPDFファイルを指定します。tet [<オプション群>] <ファイル名>...このTETコマンドラインツールはTETライブラリの最上位の上に構築されています。--docopt・--tetopt・--imageopt・--pageoptオプションを用いれば、163ページの10章「TETライブラリAPIリファレンス」のオプション一覧表に従ったさまざまなオプションをライブラリに与えることが可能です。表2.1にすべてのTETコマンドラインオプションを挙げます(この一覧は、このTETプログラムをオプションなしで走らせたときにも表示されます)。注記日中韓テキストを抽出するには、7ページの0.1「ソフトウェアをインストール」に従ってTET同梱のCMapファイル群の置き場所を設定する必要があります。表2.1 TETコマンドラインオプション一覧オプション引数機能--オプションのリストを終了させます。これは、ファイル名が-キャラクタで始まっているときに有用です。@filename 1オプション群を持つレスポンスファイルを指定します。文法の説明は20ページの「レスポンスファイル」を参照してください。レスポンスファイルは、--オプションの前、かつ最初のファイル名の前でのみ認識されます。レスポンスファイルは、他のオプションに対する引数を置き換えるために用いることはできず、完全なオプション/引数の組み合わせ群を内容とする必要があります。--docopt--firstpage-f<オプションリスト> | lastopen_document( )に対する追加のオプションリスト(183ページの表10.8参照)。tetmlオプションのfilenameサブオプションはここでは使えません。(--imageloop resourceに対しては無視されます)テキスト抽出を開始するページの番号。キーワードlastで末尾ページを指定、last-1で末尾ページの前のページ、等々。デフォルト:1--formatutf8 | utf16テキスト出力の形式を指定(デフォルト:utf8):utf8BOM(バイトオーダマーク)付きUTF-8utf16ネイティブバイト順序のBOM付きUTF-16このオプションは、つねにUTF-8で生成されるTETML出力には効力を持ちません。--help, -?(またはオプションなし)利用可能なオプションをまとめたヘルプを表示2.1コマンドラインオプション17