- Mon Shot de Data Science
- Posts
- Définir le bon type de données pour les colonnes catégorielles
Définir le bon type de données pour les colonnes catégorielles
#4 - CategoricalDtype
Si tes données comportent des colonnes catégorielles, tu ne devrais pas les représenter comme des données de type int/string.
Pandas fournit plutôt un type de données optimisé spécifiquement pour les colonnes catégorielles. C'est particulièrement pratique lorsque tu travailles sur de gros projets data-driven.
L'extrait de code ci-dessus compare l'utilisation de la mémoire des types de données string et categorical dans Pandas (voir le notebook sur Github).
Ça t'a plu ? 😎 |
Reply