カスタムモデルにトレーニングデータを追加¶
モデルデプロイで特徴量ドリフト追跡を有効にするには、トレーニングデータを追加する必要があります。 これを行うには、モデルのバージョンにトレーニングデータを割り当てます。 非構造化カスタム推論モデルのトレーニングデータセットとホールドアウトデータセットを指定する方法では、トレーニングデータセットとホールドアウトデータセットを個別にアップロードする必要があります。 さらに、これらのデータセットにはパーティション列を含めることはできません。
ファイルサイズに関する注意
The file size limit for custom model training data uploaded to DataRobot is 1.5GB.
To assign training data to a custom model version:
-
モデルレジストリ > カスタムモデルワークショップのモデルリストで、トレーニングデータを追加するモデルを選択します。
-
アセンブルタブのデータセットの隣:
-
モデルのバージョンにトレーニングデータが割り当てられていない場合は、割り当てるをクリックします。
-
モデルのバージョンにトレーニングデータが割り当てられている場合は、編集アイコン をクリックし、トレーニングデータを変更ダイアログボックスで、削除アイコン をクリックして既存のトレーニングデータを削除します。
-
-
トレーニングデータを追加(またはトレーニングデータを変更)ダイアログボックスで、トレーニングデータセットファイルをクリックしてトレーニングデータボックスにドラッグするか、ファイルを選択をクリックして以下のいずれかを実行します。
-
ローカルファイルをクリックし、ローカルストレージからファイルを選択して、開くをクリックします。
-
AIカタログをクリックし、以前にDataRobotにアップロードしたトレーニングデータセットを選択して、このデータセットを使用をクリックします。
スコアリングに必要な特徴量を含める
カスタムモデルのトレーニングデータの列は、デプロイされたカスタムモデルへのスコアリングリクエストにどの特徴量が含まれるかを示します。したがって、トレーニングデータが使用可能になると、トレーニングデータセットに含まれない特徴量はモデルに送信されません。 プレビュー機能として利用可能で、NextGenエクスペリエンスでカスタムモデルを構築する場合、列のフィルター設定を使ってこの動作を無効にできます。
-
-
(オプション)(トレーニング/検定/ホールドアウトのパーティションに基づいて)データのパーティション情報を含む列名を指定します。 カスタムモデルをデプロイし、そのデータドリフトと精度を監視する予定であれば、列にホールドアウトパーティションを指定して、精度のベースラインを確立します。
パーティション列の指定
パーティション列を指定しなくても、データのドリフトと精度を追跡できます。ただし、このシナリオでは、DataRobotにベースライン値はありません。 選択されたパーティション列は
T
、V
、H
のいずれかの値のみを含む必要があります。 -
アップロードが完了したら、トレーニングデータを追加をクリックします。
トレーニングデータの割り当てエラー
トレーニングデータの割り当てに失敗すると、新しいカスタムモデルバージョンのデータセットの下にエラーメッセージが表示されます。 このエラーが存在する間は、影響を受けるバージョンをデプロイするモデルパッケージを作成できません。 エラーを解決してモデルパッケージをデプロイするには、トレーニングデータを再割り当てして新しいバージョンを作成するか、新しいバージョンを作成してからトレーニングデータを割り当てます。