Pourquoi il est généralement conseillé de ne jamais itérer sur un DataFrame ?

#123 - Voici la raison principale que tu n'as peut-être jamais entendu...

Durée d'exécution accès colonne vs. accès ligne

Parfois, on nous conseille d'éviter d'itérer sur un DataFrame Pandas. Mais quelle en est la raison exacte ? Je t'explique tout ci-dessous👇

Un DataFrame est une structure de données à colonnes principales. Ainsi, les éléments consécutifs d'une colonne sont stockés les uns à côté des autres en mémoire.

Comme les processeurs sont efficaces avec des blocs de mémoire contigus, l'extraction d'une colonne est beaucoup plus rapide que celle d'une ligne.

Mais lors de l'itération, comme chaque ligne est récupérée en accédant à des blocs de mémoire non contigus, la durée d'exécution augmente considérablement.

Dans l'image ci-dessus, l'extraction de plus de 32 millions d'éléments d'une colonne était près de 30 fois plus rapide que l'extraction de seulement neuf éléments stockés dans une ligne.

Ça t'a plu ? 😎

Connexion ou S'abonner pour participer aux sondages.

Reply

or to participate.