• Mon Shot de Data Science
  • Posts
  • Le déséquilibre des classes : est-ce vraiment un problème incontournable en Machine Learning ?

Le déséquilibre des classes : est-ce vraiment un problème incontournable en Machine Learning ?

#135 - Spoiler : Il se peut que non.

#135 - Déséquilibre avec une séparabilité des classes faible vs élevée

Le déséquilibre des classes est souvent un défi en Machine Learning. Pourtant, il ne s'agit pas toujours d'un problème. Voici pourquoi.

L'un des facteurs clés pour déterminer l'impact du déséquilibre, c’est la séparabilité des classes.

Comme son nom l'indique, elle mesure le degré auquel deux classes (ou plus) peuvent être distinguées ou séparées les unes des autres sur la base des valeurs de leurs caractéristiques (features).

Lorsque les classes sont grandement séparables, il y a peu de chevauchements entre leurs distributions de features (comme illustré ci-dessous). Il est donc plus facile pour un classificateur d'identifier correctement la classe d'une nouvelle instance.

Distribution des Features pour des classes séparées

Peu de chevauchement entre la distribution des features

Toutefois, lorsque les classes sont mal séparables, leurs distributions de features se chevauchent (comme illustré ci-dessous). Il est donc difficile pour un classificateur de les distinguer avec précision.

Distribution des Features pour des classes non séparées

Chevauchement important entre la distribution des caractéristiques

Ainsi, malgré le déséquilibre, même si tes données présentent un degré élevé de séparabilité des classes, le déséquilibre peut ne pas constituer un problème en soi.

Pour conclure, envisage d'estimer la séparabilité des classes avant de passer à des étapes de modélisation sophistiquées.

Cela peut se faire visuellement ou en évaluant les métriques spécifiques au déséquilibre sur des modèles simples.

La figure ci-dessous illustre la frontière de décision apprise par un modèle de régression logistique sur un ensemble de données de classes séparables.

Frontière de décision pour des classes séparées

Frontière de décision apprise par un modèle de régression logistique sur un dataset de classes séparables

Ça t'a plu ? 😎

Connexion ou S'abonner pour participer aux sondages.

Reply

or to participate.