Optimisation de la taille des fichiers
Supposons que vous disposiez de 2 gros fichiers de données sur un cluster de 10 nœuds. Chaque fichier contient 10 millions de lignes d’une taille à peu près identique. Pendant votre travail, la réactivité est acceptable, mais la lecture initiale des fichiers prend beaucoup de temps. Notez que vous êtes la seule personne à utiliser ces données et qu’elles changent à chaque exécution.
Laquelle des options suivantes est la meilleure pour améliorer les performances ?
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice