抽出
[抽出] アクションでは、テキストを抽出してそれを変数に保存します。
テキストのみ、またはタグを含めて全部など、抽出するコンテンツを指定する場合があります。テキストを保存する前に、データ コンバータのリストを使用して処理することができます。また、オプションで先頭および末尾のスペースを削除できます。
「抽出」アクションの最も簡単な使用方法は、1 つの検知タグから抽出することです。また、タグ範囲から抽出することもできます。この場合、1 つの検知タグから別の検知タグへとすべてのタグを使用します。
プロパティ
[抽出] アクションは、次の各プロパティを使用して設定できます。
- 抽出元
-
検知タグの抽出する部分を指定します。
- 見つかったタグ: 検知タグの全体を抽出するように指定します。
- タグの範囲: タグの一定の範囲を抽出するように指定します。開始タグおよび終了タグを選択したり、これらのタグを範囲に含めるかを選択できます。
- 次を抽出
-
抽出するコンテンツを指定します。
- テキストのみ: テキストだけを抽出するように指定します。
- 構造化テキスト: テキストだけを抽出し、ブラウザに表示される形式と同様の形式でテキストを構造化します。システムで見出しの場所を推測し、テキストを前後に挿入できます。次のオプションを設定できます。
- 位置指定されたテーブルとイメージを含める
-
テキストの右端または左端に位置合わせされた表および画像を出力テキストに含めるよう指定します。このプロパティを無効にすると、目的のコンテンツが削除されることがあります。
- URL を含める
-
リンク タグ内の実際の URL を出力テキストに含めるよう指定します。
- イメージ テキストの代替要素を含める
-
画像のテキスト表現を出力テキストに含めるよう指定します。
- フォーム フィールドを含める
-
フォーム フィールドのテキスト表現を出力テキストに含めるよう指定します。
- 見出しの前にこれを挿入
-
このアクションで見出しの場所を推測し、指定のテキストを見出しの前に挿入するように指定します。
- 見出しの後にこれを挿入
-
このアクションで見出しの場所を推測し、指定のテキストを見出しの後に挿入するように指定します。
-
[高度な構造化テキスト]: テキストだけを抽出し、ブラウザに表示される形式と同様の形式でテキストを構造化します。タグの名前は任意のテキストに変換できます。次のオプションを設定できます。
- 位置指定されたテーブルとイメージを含める
-
テキストの右端または左端に位置合わせされた表および画像を出力テキストに含めるよう指定します。このプロパティを無効にすると、目的のコンテンツが削除されることがあります。
- URL を含める
-
リンク タグ内の実際の URL を出力テキストに含めるよう指定します。
- イメージ テキストの代替要素を含める
-
画像のテキスト表現を出力テキストに含めるよう指定します。
- フォーム フィールドを含める
-
フォーム フィールドのテキスト表現を出力テキストに含めるよう指定します。
- タグ変換
-
使用するタグ変換を指定します。タグ変換の形式は tag=text です。たとえば、"<h1>=<head1>" および "</h1>=</head1>" は、HTML の見出しレベル 1 を特殊な <head1> タグに変換します。変換の右側は任意です。通常のタグにする必要はありません。
-
HTML: HTML の全体を抽出するように指定します。
- HTML を書式設定
-
HTML をプリティプリントするように指定します。
- URL をエンコード
-
属性値の URL を HTML エンコードするように指定します。これを強く推奨します。その理由は、さまざまなブラウザで一貫して機能するように、標準に準拠した HTML を生成する必要があるためです。ただし、URL の認識や比較のための処理が単純な HTML では、URL をエンコードせずにそのままにすることが必要な場合もあります。
- 相対 URL を抽出
-
すべての URL を相対で抽出することを指定します。URL のベース部分がある場合には除去されます。
-
XML: XML の全体を抽出するように指定します。これはページが XML ページの場合に限り機能します。
- XML 宣言を含める
-
XML 宣言 (たとえば、<?xml version="1.0" encoding="UTF-8"?>) がある場合は、これを抽出した XML に含めるように指定します。つまり、XML ドキュメントの一部を抽出して、適切な宣言をトップにして、新規 XML ドキュメントを取得できます。
- コンバータ
-
テキストを処理するデータ コンバータのオプション リスト。
- スペースの除去
-
選択した場合、テキストの先頭および末尾のスペースを除去してから、テキストを変数に保存します。
- 変数
-
抽出したテキストを保存する変数を指定します。