詳細情報:
データの問題の解決
モデル作成用のデータの準備時やモデルのトレーニング後に発生する可能性がある一般的な問題に対処します。
| 問題 | アプローチ |
|---|---|
| 極値と異常値 | 異常値は統計的に有意な計算で平均と標準偏差に影響するため、予測アルゴリズムは異常値に対して敏感です。異常値が見つかった場合、そのデータポイントは関連性があり、実在するかどうかを確認します。多くの場合、異常値はエラーです。極端なデータポイントが正確かつ予測可能で、繰り返し発生する場合、そのポイントが重要でなければ削除しないでください。 |
| 不正値 | 予測アルゴリズムは、入力情報が正しいと想定します。数行のみに不正値が含まれている場合は、何を行うかを決定します。つまり、分析からそれらの行を削除するか、不正値をより正確な値または平均値に置き換えます。多数の不正値がある場合、不正が発生した理由を調べ、修正可能かどうかを判断します。エラーの原因となる可能性が高い変数は、分析に含めるよりも削除した方がよい場合があります。 |
| カテゴリ値の標準化 | カテゴリ値では、一貫したカテゴリ名を使用してください。スペルのバリエーション (複数形や省略形など) を削除します。入力ミスやその他のエラーを修正します。また、意味のある、わかりやすい表示ラベルを使用します。 |
| 高カーディナリティ項目 | 高カーディナリティ項目は、多数の個別値を含むカテゴリ属性です。例として、名前、郵便番号、取引先番号などがあります。これらの変数は多数の情報を提供しますが、高カーディナリティ属性は予測モデリングではほとんど使用されません。この属性を含めるとデータの次元が大幅に増加し、ほとんどのアルゴリズムで正確な予測モデルを構築することが困難になる可能性があります。 |
| 順序変数 | 順序変数は、予測モデルでは問題となることがあります。順序データは、セット内の項目のランクを表すカテゴリデータの一種ですが、値の間隔が均一でなく、意味のあるものではありません。たとえば、1 位、2 位、3 位というように、販売金額に基づく営業担当者のランキングについて考えてみます。順位は明確ですが、ランク 1 位とランク 2 位の営業担当者の金額の差は、ランク 2 位とランク 3 位の差とは異なります。その他の例としては、教育レベル、満足度評価、評価スケールを用いた回答などがあります。順序値を使用する場合は、演算子をテキスト (カテゴリ) と数値 (連続) のどちらとして処理するかを検討してください。順序データが数値であれば、1 と 2 の評価は低く、3 は中間、4 と 5 は良いというように、意味のあるビンにグループ化しましょう。定数データがテキストの場合は、各値が個別に分析およびモデル化されます。 |
| 重複変数、冗長な変数、または高度に相関する変数 | 同じ情報が格納される重複変数、冗長な変数、その他の高度に相関する変数は最小限に抑えます。予測アルゴリズムは、このような共線変数がない場合にパフォーマンスが向上します。共線性は、2 つ以上の予測変数が高度に相関する場合に発生します。その結果、一方を他方からかなりの精度で線形的に予測できます。共線性を回避するには、高度に相関する複数の変数、または同じレポート階層のデータを含めないようにします。たとえば、タンパ市に住む顧客はフロリダ州にも住んでいます。2 つの連続変数間の高度な相関を識別するには、散布図を確認します。散布図のパターンで、変数間のリレーションが示されます。リレーションは線形または非線形です。リレーションの強度を調べるには、相関関係を計算します。相関関係は –1 ~ +1 の間で変動します。 |
| 欠損値 | 欠損値の最も一般的な修正は、分布の平均または計算値を使用して期待値を代入することです。平均値を使用する場合、標準偏差が低減される可能性があります。したがって、分布の代入方法の方が信頼性が高くなります。別の方法は、欠損値のあるレコードを削除することです。だだし、欠損値を安易に除外しないでください。欠損データ内にパターンが存在する場合があります。また、削除するレコード数が多すぎると、分析で実環境の側面が低減します。 |

