CommencerCommencer gratuitement

Optimisation de la taille des fichiers

Imaginez que l'on vous donne deux gros fichiers de données sur un cluster de 10 nœuds. Chaque fichier contient 10 millions de lignes de taille à peu près identique. Lorsque vous travaillez avec vos données, la réactivité est acceptable, mais la lecture initiale des fichiers prend un temps considérable. Notez que vous êtes le seul à utiliser les données et qu'elles changent à chaque exécution.

Laquelle des options suivantes est la meilleure pour améliorer les performances ?

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice