- Mon Shot de Data Science
- Posts
- Pourquoi la corrélation (et d'autres statistiques) peut-elle être trompeuse ?
Pourquoi la corrélation (et d'autres statistiques) peut-elle être trompeuse ?
#44 - La corrélation avec et sans outliers
La corrélation est souvent utilisée pour déterminer l'association entre deux variables continues. Mais elle présente un défaut majeur qui passe souvent inaperçu…
Les gens tirent souvent des conclusions à partir d'une matrice de corrélation sans même examiner les données. Or, les statistiques obtenues peuvent être fortement influencées par des valeurs aberrantes ou d'autres artefacts.
C'est ce que montrent les graphiques ci-dessus. L'ajout de seulement deux valeurs aberrantes (ou outliers) modifie radicalement la corrélation et la droite de régression.
Ainsi, l'examen des données et la compréhension de leurs caractéristiques sous-jacentes peuvent permettre d'éviter de tirer des conclusions erronées. Les statistiques sont importantes, mais elles peuvent parfois être très trompeuses.
Ça t'a plu ? 😎 |
Reply