ActiBookアプリアイコンActiBookアプリをダウンロード(無償)

  • Available on the Appstore
  • Available on the Google play

概要

TET5

> granularity=pageと設定すると、ページ上に含まれるすべての単語が1つの断片で返されます。複数の単語・行・段落の間には、選択された粒度がその単位より大きければ、それぞれ区切りキャラクタが挿入されます。たとえばgranularity=wordの場合、TET_get_text( )は呼び出されるごとに単語をきっかり1つずつ返すのですから、単語区切りを挿入する必要などないわけです。区切りキャラクタを指定するには、TET_open_document( )のwordseparator・lineseparatorオプションを用います(区切りキャラクタを無効にするにはU+0000を用います)。たとえば:lineseparator=U+000Aデフォルトでは、granularity=glyphの場合にはすべての内容分析動作が無効にされ、それ以外の粒度設定では有効にされます。しかし、区切りオプションを用いればよりきめ細かな制御も可能です(後述)。欧文テキストの単語境界検出単語検出機能は、glyphを除くすべての粒度モードで有効にされ、ページ全体にでたらめな順序で散らばっているかもしれない複数のグリフをまとめて論理的な単語を再構成します。欧文テキストの単語境界は2つの判定基準によって認識されます:>精巧なアルゴリズムがグリフどうしの位置関係を解析して、キャラクタのグループを検出し、単語を再構成します。このアルゴリズムはさまざまな属性や特例を考慮して、レイアウトが複雑な場合やページ上のテキスト順序がばらばらな場合でも単語を正確に認識できるよう努めます。contentanalysisページオプションのサブオプションusemetricsを用いて、特殊な場合においてこのアルゴリズムを無効化することもできます。>スペースや句読点(コロン・カンマ・ピリオド・括弧等)といったある種のキャラクタは、その幅・位置にかかわらずつねに単語境界と認識されます。contentanalysisページオプションのサブオプションuseclassesを用いて、特殊な場合においてこのアルゴリズムを無効化することもできます。単語境界検出の際に句読点キャラクタを無視することは、たとえば、Web URLを扱う際に有用でしょう。URLでは多くの場合、ピリオド・スラッシュキャラクタは語の一部と見なされるからです(図6.5参照)。punctuationbreaksオプションをfalseに設定すると、単語検出機能は句読点キャラクタを単語境界として扱わなくなります:contentanalysis={punctuationbreaks=false}注記表意文字キャラクタによるテキストに対する単語境界検出は動作が異なります。詳しくは86ページの6.4.2「日中韓テキストの単語境界」を参照してください。図6.5デフォルト設定punctuationbreaks=trueではURLは各部に分解されますが(上)、punctuationbreaks=falseでは各部はひとまとまりのまま保持されます(下)。6.6内容分析91