Optimisation de la taille des fichiers
Imaginez que l'on vous donne deux gros fichiers de données sur un cluster de 10 nœuds. Chaque fichier contient 10 millions de lignes de taille à peu près identique. Lorsque vous travaillez avec vos données, la réactivité est acceptable, mais la lecture initiale des fichiers prend un temps considérable. Notez que vous êtes le seul à utiliser les données et qu'elles changent à chaque exécution.
Laquelle des options suivantes est la meilleure pour améliorer les performances ?
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
