Aan de slagGa gratis aan de slag

Bestandsgrootte optimaliseren

Stel, je krijgt 2 grote databestanden op een cluster met 10 nodes. Elk bestand bevat 10 miljoen rijen van ongeveer dezelfde grootte. Tijdens het werken met je data is de respons acceptabel, maar het eerste inlezen van de bestanden kost veel tijd. Let op: jij bent de enige die de data gebruikt en deze verandert bij elke run.

Welke van de volgende opties verbetert de prestaties het meest?

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen