CommencerCommencer gratuitement

Optimisation de la taille des fichiers

Supposons que vous disposiez de 2 gros fichiers de données sur un cluster de 10 nœuds. Chaque fichier contient 10 millions de lignes d’une taille à peu près identique. Pendant votre travail, la réactivité est acceptable, mais la lecture initiale des fichiers prend beaucoup de temps. Notez que vous êtes la seule personne à utiliser ces données et qu’elles changent à chaque exécution.

Laquelle des options suivantes est la meilleure pour améliorer les performances ?

Cet exercice fait partie du cours

Nettoyer des données avec PySpark

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice