ブックタイトルTET5
- ページ
- 102/228
このページは TET5 の電子ブックに掲載されている102ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている102ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
7.2 Unicode前処理(フィルタリング)TETは、有用でなさそうなテキストを除去するためにいくつかのフィルタを適用します。これらのフィルタはテキストを、いかなるUnicode後処理ステップをも適用する前に変更します。いくつかのフィルタはつねに有効であり、それ以外は単語検出機能を必要としますのでgranularity=word以上の場合にのみ有効です。7.2.1すべての粒度のためのフィルタ以下のフィルタはすべての粒度で使用できます。異常な文字サイズのテキスト非常に小さなテキストや非常に大きなテキストは無視させることもできます。たとえばページ背景の大きなキャラクタです。上限・下限はfontsizerangeページオプションで制御できます。デフォルトでは、すべての文字サイズのテキストが抽出されます。下記のページオプションは、抽出するテキストの文字サイズの範囲を10~50ポイントに制限します。これを外れている文字サイズのテキストは無視されます:fontsizerange={10 50}不可視テキスト不可視テキスト(すなわちtextrendering=3のテキスト)はデフォルトでは抽出されます。PDF内のテキストは、textrenderingプロパティ以外にもさまざまな理由で見えなくなっている可能性があることに留意してください。たとえばテキストの色が背景色と同一であるかもしれませんし、テキストがページ上の他のオブジェクトに隠れているかもしれません。ここで記述する動作はtextrendering=3のテキストにのみ効力を持ちます。このPDF技法はOCRの生成テキストに対して広く用いられています。スキャンされたラスタ画像に「重ねて」テキストが見えない形で存在しているのです。不可視テキストは、TET_get_char_info( )が返すTET_char_info構造のtextrenderingメンバによって識別することもできますし(204ページの表10.16を参照)、あるいはTETML内のGlyph/@textrendering属性によって識別することもできます。不可視テキストを無視したいときは下記のページオプションを用います:ignoreinvisibletext=true特定フォント名またはフォント種別のテキストを完全無視場合によっては、1個ないし複数のフォントを名前で指定してそのテキストを完全に無視させることが有用でしょう。たとえば、意味のあるテキストをまったく構成しない記号フォントなどです。あるいは、問題のあるフォントをフォント種別で指定することもできます。これは、装飾のために用いられることのあるType 3フォントに対して主に有用です。このフィルタは、glyphmapping文書オプションのremoveサブオプションによって制御できます。たとえば、Type 3フォントのテキストをすべて無視:glyphmapping={{fonttype={Type3} remove}}Webdings・Wingdings・Wingdings 2・Wingdings 3フォントのテキストをすべて無視:glyphmapping={{fontname=Webdings remove} {fontname=Wingdings* remove}}フォント名に対する条件とフォント種別に対する条件とを組み合わせることも可能です。たとえば、文字Aで始まるすべてのType 3フォントのテキストを無視:glyphmapping={{fonttype={Type3} fontname=A* remove}}102 7章:高度なUnicode処理