ブックタイトルTET5
- ページ
- 70/228
このページは TET5 の電子ブックに掲載されている70ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている70ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
には、文書オプションparaseparator=U+2029(または他の適切なUnicode値)を用います。検索エンジンやインデクサを書くインデクサは通常、テキストのページ上における位置には関心を持っていません(検索された用語をハイライト表示させたい場合を除き)。多くの場合、インデクサはUnicodeマッピングにおいて起こるエラーを許容し、得られるテキスト内容すべてを処理します。推奨方策:> TET_open_page( )でgranularity=wordを用います。>句読点を処理する方法をアプリケーションが知っている場合には、ページオプションcontentanalysis={punctuationbreaks=false}を設定すれば、句読点を隣接テキストと一緒にしておくことができます。位置情報応用の種類によっては、位置情報に関する機能が有用でしょう:> TET_get_char_info( )インタフェースが必要になるのは、テキストのページ上における位置や、それぞれのフォント名、テキストカラーなど詳細情報を必要とする場合だけです。テキストの座標に関心がない場合には、TET_get_text( )を呼び出せば充分です。>ページのレイアウトに関して事前情報がある場合は、TET_open_page( )でincludeboxオプションやexcludeboxオプションを用いて、ヘッダ・フッタやその他本文テキストには含まれない部位を除外することができます。複雑なレイアウトある種の文書は、非常に凝ったページレイアウトを用います。たとえば雑誌などでは、TETはページ上の段組みどうしの関係を正しく決めることができない場合があります。このような場合には、処理時間をかけることによって、抽出されるテキストを向上させることが可能です。この目的に適したオプションは、94ページの6.7「レイアウト分析」にまとめてあります。関連するオプションについて詳しくは、197ページの表10.12を参照してください。法律文書法律文書を扱う際には通常、Unicodeマッピングの誤りは一切許容されません。それによって文書の内容や解釈が変わってしまう危険があるためです。多くの場合テキストの位置は必要ではなく、テキストは単語ごとに抽出される必要があります。推奨方策:> TET_open_page( )でgranularity=wordオプションを用います。>開くためにパスワードを必要とする文書を処理する必要があるときは、TET_open_document( )でpasswordオプションを用いて正しい文書パスワードを指定します。あるいは、内容抽出が権限設定で許可されていないときは、その文書からテキストを抽出する合法的立場に自分があるならば、shrugオプションを用います(64ページの「暗号化文書に対する「シュラッグ」機能」を参照)。>テキストの厳密さを正確に保つには:TET_get_char_info( )が返すキャラクタ情報構造のフィールドが1であったとき、またはTET_get_text( )が返す文字列の中にUnicode置き換えキャラクタが入っていたときには、ただちに処理を停止させます。テキストモードglyphまたはwordplusによるTETML内では、この状況はGlyphエレメントの下記の属性で特定できます:unknown="true"unknowncharオプションをよくあるキャラクタに設定しないようにします。正しくマップされたキャラクタとの区別が、unknownフィールドを調べないかぎりできなくなってしまうためです。70 5章:設定