ファイル解析
ファイル解析機能を使用して、ファイルからデータを取得します。この機能は、プレーン (CSV など)、XML、および Excel ファイルをサポートしています。Studio 内でのルールとテンプレートを作成して、外部ツールや追加モジュールを使用せずにファイルを解析できます。最初に、特定のファイルタイプからデータを抽出する方法を説明するテンプレートを定義します。次に、指定された一連のファイルに対して一連のテンプレートを使用するバッチを定義します。これらのデータ読み込みバッチは、実行プラン内から実行されます。ファイルパーサーが実行されると、ファイルからデータが抽出され、ステージング データベースにロードされています。
外部ファイルを操作するには、次のことを行う必要があります。
-
解析構成設定を確認し、必要に応じて変更します。
-
ファイルテンプレートのセットを作成します。
各テンプレートは、同じ形式と内部構造を持つファイルに対してのみ使用されます。一意の列順序、データ型、またはその他の違いがあるファイルでは、データを抽出するために別のテンプレートが必要です。
-
テンプレートを使用してロードバッチを定義します。
-
実行プランにバッチロードが含まれています。
-
実行プランを実行します。
- ドキュメントフィールド、レコード、ヘッダー、フッター
-
テンプレートを使用してファイルのデータを解析するには、ファイル解析エンジンは[ドキュメント フィールド]定義と少なくとも 1 つのレコードが必要です。
[ドキュメント フィールド] は、解析されたファイル全体に対して 1 つの値を持つフィールドです。デフォルトでは、[ファイル名]、[作成日] [変更日]、および [ファイル サイズ] フィールドが含まれています。ファイル名または [ヘッダー] や [フッター] などの特別なファイル領域から解析された値を持つ追加のフィールドを追加できます。解析されたファイルごとに、エンジンは 1 行を [ドキュメント フィールド] テーブルに追加します。
注 複数のデータセクションを持つファイルを解析できます。解析エンジンは、3 種類のデータパーツを認識します。
[ヘッダー]: ファイルのすべてのデータの共有情報を含むファイルの先頭の静的部分。
[フッター]: ファイルのすべてのデータの全体/集計/合計情報を含むファイルの最後の静的部分。
[レコード]: 共通の構造を持つグループ化されたデータを含むファイルの一部の繰り返し (ファイル内で一意)。
注 ヘッダーとフッター内で指定されたフィールドは、[ドキュメント フィールド]テーブルに保存されています。 - テンプレートグループ、ファイル、テンプレート
-
1 つのソースまたは 1 つのファイル形式のテンプレートなど、論理テンプレートのグループ化にテンプレートグループを使用します。テンプレート グループ内で 1 つ以上のファイルを定義できます。ファイル(テンプレート フォルダー)には、1 つ以上のテンプレートを含めることができます。