最適化設定 ウィンドウ
コンテンツ分類の最適化機能は、[最適化設定] ウィンドウの設定を使用してさらに詳細に構成できます。
多くの機能には、最小値、最大値、およびステップ幅があります。つまり、各値のテストは最小値から開始され、最大値で終了します。ステップ幅により、各ステップの増分方法を指定します。たとえば、最小値を 3、最大値を 9、ステップ幅を 3 に設定した場合、最適化プロセスにより 3、6、9 の各値がテストされます。
- 最適化ターゲット
-
このグループには次の設定があります。
- [機能の最大数]
-
最適化において、機能はクラスに固有の文字列です。トライグラム (三重文字) または単語は分類に役立ちますが、特にあいまいな文字列一致検索を使用する場合、これらは十分な一意性を持つ文字列であるとは言えません。機能は一意性の強い文字列です。たとえば、「請求書」はすべてのクラスで見つかる場合がありますが、請求書ステートメントはある 1 つのクラスに固有であり、「これが最後のステートメント」はまた別のクラスに固有です。(デフォルト:選択済み)
この設定を選択して、機能の最大数の最小値と最大値、およびステップ幅を構成します。
[最小値] および [ステップ幅] のデフォルト値はどちらも 1000 に設定されています。[最大値] は 10,000 に設定されています。
機能の長さにはスペースが含まれます。つまり、最長の長さが 7 に設定されている場合、これには単語間のすべてのスペースが含まれます。
- [最短の機能の長さ]
-
最短の機能の長さにより、機能または文字列の最短の長さを指定します。この設定を選択して、最短の機能の長さの最小値と最大値、およびステップ幅を構成します。(デフォルト:選択済み)
[最小値] のデフォルト値は 3、[最大値] のデフォルト値は 5、[ステップ幅] のデフォルト値は 1 に設定されています。つまり、最適化を実行すると、最短の機能の長さが、最小で 3、4、および 5 文字の長さの機能がテストされます。
- [最長の機能の長さ]
-
最長の機能の長さにより、機能または文字列の最長の長さを指定します。この設定を選択して、最長の機能の長さの最小値と最大値、およびステップ幅を構成します。(デフォルト:選択済み)
[最小値] のデフォルト値は 16、[最大値] のデフォルト値は 64、[ステップ幅] のデフォルト値は 8 に設定されています。つまり、最適化を実行すると、最長の機能の長さが、16、24、32、40、48、56、および 64 文字の最大長の機能がテストされます。
- [最小機能頻度]
-
ドキュメントを分類するために、機能が現れる回数を指定するには、この設定を選択します。(デフォルト:選択済み)
[最小値] は 2、[最大値] は 5、[ステップ幅] は 1 に設定されています。つまり、最適化を実行した場合、ドキュメントを分類するには、機能のインスタンスが 2 つ以上必要です。デフォルト値を使用すると、2、3、4、および 5 つのインスタンスが存在する可能性があります。
- [最小クラス エントロピー]
-
エントロピーとは、プロジェクトの独自性のレベルです。この値が高いほど、機能が一意であることを示します。プロジェクトに含まれるクラスが多いほど、エントロピーの値が大きくなります。(デフォルト:選択済み)
[最小値] は 0.2、[最大値] は 0.8、[ステップ幅] は 0.1 に設定されています。これは、値0.2、0.3、0.4、0.5、0.6、0.7、および 0.8 がテストされることを意味します。
- [単語のみを使用]
-
完全な単語のみを使用するには、この設定を選択します。(デフォルト:選択済み)
完全な単語のみが認識されるようになります。動詞または部分複合語の部分単語や語幹は含まれません。
- [あいまい文字列一致検索を使用]
-
この設定を選択すると、あいまいな文字列一致検索が有効になります。(デフォルト:選択済み)
ウィンドウの下部にあるボタンの説明は、「共通 Transformation Designer ボタン」を参照してください。