- Mon Shot de Data Science
- Posts
- Le déséquilibre des classes : est-ce vraiment un problème incontournable en Machine Learning ?
Le déséquilibre des classes : est-ce vraiment un problème incontournable en Machine Learning ?
#135 - Spoiler : Il se peut que non.
Le déséquilibre des classes est souvent un défi en Machine Learning. Pourtant, il ne s'agit pas toujours d'un problème. Voici pourquoi.
L'un des facteurs clés pour déterminer l'impact du déséquilibre, c’est la séparabilité des classes.
Comme son nom l'indique, elle mesure le degré auquel deux classes (ou plus) peuvent être distinguées ou séparées les unes des autres sur la base des valeurs de leurs caractéristiques (features).
Lorsque les classes sont grandement séparables, il y a peu de chevauchements entre leurs distributions de features (comme illustré ci-dessous). Il est donc plus facile pour un classificateur d'identifier correctement la classe d'une nouvelle instance.
Peu de chevauchement entre la distribution des features
Toutefois, lorsque les classes sont mal séparables, leurs distributions de features se chevauchent (comme illustré ci-dessous). Il est donc difficile pour un classificateur de les distinguer avec précision.
Chevauchement important entre la distribution des caractéristiques
Ainsi, malgré le déséquilibre, même si tes données présentent un degré élevé de séparabilité des classes, le déséquilibre peut ne pas constituer un problème en soi.
Pour conclure, envisage d'estimer la séparabilité des classes avant de passer à des étapes de modélisation sophistiquées.
Cela peut se faire visuellement ou en évaluant les métriques spécifiques au déséquilibre sur des modèles simples.
La figure ci-dessous illustre la frontière de décision apprise par un modèle de régression logistique sur un ensemble de données de classes séparables.
Frontière de décision apprise par un modèle de régression logistique sur un dataset de classes séparables
Ça t'a plu ? 😎 |
Reply