ブックタイトルTET5
- ページ
- 92/228
このページは TET5 の電子ブックに掲載されている92ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
このページは TET5 の電子ブックに掲載されている92ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。
TET5
ハイフン除去行末でハイフン区切りされた単語というものは通常、抽出したテキストを論理レベルで処理したいアプリケーションにとっては好ましくありません。そのためTETはハイフン除去、すなわちハイフン区切りされた単語の各部分の再結合を行います。より正確にいうと、行末の単語の末尾にハイフンキャラクタがあり、かつその次の行の最初の単語の先頭が小文字ならば、ハイフンは除去され、単語の前半部は次行後半部と結合されます。ただし同じ区域内に少なくともあと1行存在する場合に限ります。ダーシキャラクタ(ハイフンではない)は変更されないまま温存されます。ハイフン区切りされた単語の各部分に変更が加えられることはなく、ただハイフンが除去されるだけです。ハイフン除去を無効にするには、open_page( )で下記のオプションリストを用います:contentanalysis={dehyphenate=false}注記区域の末尾でハイフン区切りされた単語は認識されませんので、ハイフン除去はそれに対しては一切行われません(すなわちそのハイフンはテキストの中に残ります)。影付き・擬似太字テキスト除去PDF文書はときに、ページの意味内容には貢献しない、ただある種の視覚効果を生み出すためだけの冗長テキストを含んでいます。影付きテキスト効果を生み出すにはたいてい、テキスト本体を少しずつ位置をずらしながら複数複製して重ねるという方法が採られます。この各層のテキストに不透明な色をつければ、下層のテキストはほとんど隠れ、見える部分が影付き効果を生み出すように見かけ上見えるのです。同様に、ワープロソフトはときに擬似太字テキスト生成機能に対応しています。ボールドフォントが入手不可能なときにもテキストを見かけ上太字に見せかけるため、そのテキストはページ上に同じ色で何度も配置されます。その際にほんの少し位置をずらしていけば、太字テキストであるかのように見せられるわけです。擬似影付きや擬似太字テキスト、ないし同様の擬似視覚効果は、テキストを抽出して再利用しようとする際に困った問題をひき起こします。ただ視覚効果のためだけの冗長テキスト内容が、ページ内容としては不要であるにもかかわらず一緒に処理されてしまうためです。単語検出機能が有効にされている場合、デフォルトではTETはこうした冗長な擬似視覚効果を認識して除去します。影付き除去を無効にするには、open_page( )で下記のオプションリストを用います:contentanalysis={shadowdetect=false}アクセント付きキャラクタ多くの言語で、アクセントなどの分音記号が、別のキャラクタのそばに配置されて複合キャラクタを形成します。TeXをはじめとするいくつかの組版プログラムでは、2つのキャラクタ(字母キャラクタとアクセント)を別々に出力して92 6章:テキスト抽出