- Mon Shot de Data Science
- Posts
- Accélérer de 5x l'I/O des fichiers Parquet de Pandas
Accélérer de 5x l'I/O des fichiers Parquet de Pandas
#101 - fastparquet
Les DataFrames sont souvent stockées dans des fichiers parquet et lues à l'aide de la méthode read_parquet()
de Pandas.
Plutôt que d'utiliser Pandas, qui repose sur un seul cœur, utilise le package fastparquet. Il offre d'immenses accélérations pour l'I/O (Input/Output = Entrée/Sortie) sur les fichiers parquet en utilisant le traitement parallèle.
Plus d'informations ici : Documentation fastparquet.
Ça t'a plu ? 😎 |
Reply