ブックタイトルTET5
- ページ
- 184/228
このページは TET5 の電子ブックに掲載されている184ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている184ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
表10.8 TET_open_document( )・TET_open_document_callback( )の文書オプション一覧オプションenginesfold説明(オプションリスト)ページ解析のためのTETエンジン群を有効化または無効化します。無効化されたエンジン群は何も情報を提供しません。必要のないエンジン群を無効化するとパフォーマンスが向上します(デフォルト:すべてのエンジンが有効):image(論理値)画像抽出エンジンを有効化。text(論理値)テキスト抽出エンジンを有効化。textcolor(論理値)テキストカラーエンジンを有効化。vector(論理値)ベクトルグラフィックエンジンを有効化。これは、クリッピングと表組検出の向上のために意味を持ちます。(キーワード、またはリストのリスト。それぞれの内側のリストの1番目の要素はUnicode集合またはキーワード、2番目の要素はUnicharまたはキーワード。granularity=glyphに対しては無意味)Unicode集合かキーワードとして指定した字形統合ドメイン内のすべてのキャラクタに対し、字形後統合(等価マッピング)を適用します。この字形統合は、lineseparatorまたはparaseparatorまたはwordseparatorオプションで追加した区切りキャラクタを除くすべてのテキストに対して適用されます(104ページの7.3「Unicode後処理」を参照)。デフォルト:106ページの表7.3を参照。リストに換えて、以下のキーワードを与えることもできます:none字形統合は一切適用されません。サブリストに換えて、以下のキーワードを与えることもできます:defaultデフォルト字形統合が適用されます。各リストの1番目の要素は、字形統合のドメインを、すなわちその字形統合が適用されるUnicodeキャラクタの集合を指定します。文字列は、ドメインのUnicode集合を指定します。1個のキャラクタが、foldオプション内で指定している複数の集合に含まれている場合には、最初に一致した集合の定義が他のすべてに優先します。予期せぬ結果を避けるため、重ならない集合を用いることを推奨します。ドメインをUnicode集合として指定する方法以外に、以下のキーワードを用いることもできます:_dehyphenation改行位置でハイフン区切りされた単語内で見つかったハイフンキャラクタに字形統合が適用されます。これらのキャラクタは、TET_get_char_info( )が返すattributesメンバ内と、TETML内のGlyph/@dehyphenation属性でフラグが立ちます。_tetpuaマップ不能グリフ群に割り当てられたTET PUA値群に字形統合が適用されます。これらのキャラクタは、TET_get_char_info( )によって返されるunknownメンバと、TETML内のGlyph/@unknown属性を用いてフラグされています。各リストの2番目の要素は、字形統合のターゲットキャラクタまたはアクションを内容として持ちます。これは以下の種類のいずれかで指定します:(Unichar)そのドメイン内のすべてのキャラクタを、指定したUnicodeキャラクタへ置き換えます。preserveドメイン内のキャラクタは変更されません。removeドメイン内のキャラクタが除去されます。shiftドメイン内のすべてのキャラクタを、指定した値だけシフトさせます(負の値も可)。unknowncharドメイン内のすべてのキャラクタを、unknowncharオプションで指定したキャラクタへ置き換えるか、あるいはunknowncharオプションで指定したアクションを適用します。184 10章: TETライブラリAPIリファレンス