一般的なタスクの実行
テキストの一部のみを抽出
タグ内のテキストを一部のみ抽出するには、タグ内のテキストにパターンを使用します。たとえば、次のテキストから名前 "Bob Smith" を抽出するとします: "The article is written by Bob Smith."抽出するには、抽出データ コンバータ (抽出ステップと混同しないでください) を使用します。抽出データ コンバータは、このトピックで説明しているとおりに設定する必要があります。
この例では、使用されているパターンは ".*by\s(.*)\." です。これは、"by" とピリオドの間のテキストは、サブパターンによって照合されることを意味します。詳細については、パターンを参照してください。
- 抽出設定を開き、[基本] タブを選択します。
-
[パターン] フィールドに、抽出するテキスト パターンを入力します。
パターン プロパティを、かっこでくくられているサブパターンで抽出対象のテキストを照合し、テキスト全体に対して照合するように設定します。
コンテンツの変換
コンテンツを正規化するには、テキストを別のテキストに置換するなど、変換を使用します。たとえば、「US」から「United States」に正規化するなど、国コードを自然言語の説明に正規化します。
-
プレーン テキスト変換の場合は、[リストを使用して変換] データ コンバータを使用します。
-
パターンまたはエクスプレッションに基づいた変換の場合は、[If Then] データ コンバータを使用します。
番号の抽出と書式設定
テキストから日付抽出
日付抽出は、番号の抽出と同じように実行する必要があります。
見つかったタグ内のタグのサブセットを抽出
単一のタグではなく、タグの範囲から抽出する必要がある場合があります。
たとえば、記事の本文を抽出する場合について考えてみます。この本文は独自のタグ内にある個々のセクションで構成され、記事のタイトルと作成者についての情報は他のタグに含まれています。記事のタイトルと作成者なしに、本文のみを抽出するには、抽出アクションを使用してテキストを抽出し、本文に適用されているタグの範囲のみが抽出されるように抽出アクションを設定します。