Ti trovi qui:
Avviso distribuzione sbilanciata
La distribuzione sbilanciata indica un rapporto sproporzionato di osservazioni in ogni classe di dati di addestramento.
Azioni da considerare
L'addestramento di un modello su una serie di dati sbilanciata può risultare in un modello meno affidabile con previsioni distorte. Quando si crea una versione di un modello, Einstein:
- aumenta la frequenza nella classe di minoranza con il sovracampionamento dei dati.
- valori corretti che riflettono un evento straordinario, non ricorrente o poco frequente.
Metodologia di rilevamento
Il Generatore di modelli avvisa automaticamente quando rileva una distribuzione sbilanciata.
Esempio
Un'azienda di e-commerce vuole prevedere se i propri clienti annulleranno l'abbonamento o lo abbandoneranno. Per raggiungere questo obiettivo, l'azienda crea un modello di classificazione binaria con queste variabili di input.
- ID cliente
- costo mensile
- frequenza di accesso mensile
- tipo di abbonamento
- mandato
- abbandono
Dopo l'addestramento del modello, viene visualizzato un avviso perché la variabile "churn" ha una distribuzione delle classi sproporzionata, con il 95% dei clienti etichettati come attivi e solo il 5% come abbandonati. Questo squilibrio può far sì che il modello favorisca la previsione dei clienti “attivi”, riducendo la sua capacità di identificare con precisione quelli che sono stati abbandonati (alti falsi negativi). Per risolvere il problema, di seguito sono riportate alcune azioni da considerare:
- Seguire i consigli forniti dall'avviso per bilanciare la serie di dati.
- Riaddestrare il modello con una serie di dati aggiornata.

