ブックタイトルTET5

ページ: 56/228

このページは TET5 の電子ブックに掲載されている56ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。

ブックを読む

概要

TET5

TET PDF IFilterは、デスクトップオペレーティングシステム上での非商用利用については無償ですので、気軽にテストや評価を行うことができます。受け入れ可能なPDF入力TET PDF IFilterは、あらゆる種類のPDF入力に対応しています：> Acrobat DCまでのすべてのPDFバージョン（ISO 32000-1・ISO 32000-2も含め）>文書を開くパスワードを必要としない暗号化PDF>破損したPDF文書は修復されます。Unicode後処理TET PDF IFilterはさまざまなUnicode後処理に対応しており、これを利用して検索結果を向上させることができます：>字形統合：キャラクタに対して温存・除去・置換のいずれかを行います。たとえば句読点や、無関係な用字系のキャラクタを除去することができます。>分解：一つのキャラクタを、等価な他のキャラクタないしキャラクタ列へ置き換えます。たとえば漢字を、それと正準等価なUnicodeキャラクタへ置き換えることができます。>テキストを、4種類のUnicode正規形のいずれへも変換できます。たとえば、データベースの要請に合うようNFC形式を出力することができます。国際化欧文テキストに加えて、TET PDF IFilterは日本語・中国語・韓国語（日中韓）テキストに完全対応しています。すべての日中韓エンコーディングが認識されます。横書き・縦書きに対応しています。テキストのロケールID（言語・地域識別子）の自動検出が、Microsoftの単語区切り・語幹処理アルゴリズムの結果を向上させ、このことはとりわけ東アジアテキストについて重要です。ヘブライ文字・アラビア文字といった右書き言語にも対応しています。位置依存表示形は正規化され、テキストは論理順に発出されます。PDFは単なるページの寄せ集めではないTET PDF IFilterはPDF文書を、単なるページ群だけの他にも多くの情報を含む可能性のあるコンテナとして扱います。TET PDF IFilterはPDF文書内の関連するエントリをすべてインデックスします：>ページ内容>しおり内のテキスト>メタデータ（後述）>埋め込まれたPDFとPDFパッケージ/ポートフォリオは、埋め込まれているすべてのPDF文書内のテキストが検索できるよう、再帰的に処理されます。XMPメタデータと文書情報TET PDF IFilterの高度なメタデータ実装は、Windowsのメタデータのためのプロパティシステムに対応しています。これはXMPメタデータと、標準・カスタム文書情報項目をインデックスします。メタデータインデクシングはいくつかのレベルで設定できます：>文書情報項目群とDublin Coreフィールド群、およびその他の広く用いられるXMPプロパティ群は、同等のWindowsプロパティへマップされます。例：Title・Subject・Author。> TET PDF IFilterは、有用なPDF独自の擬似プロパティ群を追加します。例：ページサイズ・PDF/A準拠レベル・フォント名。>すべての定義済みXMPプロパティ群を検索できます。>ユーザ定義XMPプロパティ群を検索できます。例：企業独自の分類プロパティ、PDF/A拡張スキーマ。56 4章: TETコネクタ

ブックタイトルTET5

ブックを読む

ActiBookアプリをダウンロード(無償)

概要