Wat is Spark eigenlijk?
Spark is een platform voor cluster computing. Met Spark kun je data en berekeningen verdelen over clusters met meerdere nodes (zie elke node als een aparte computer). Door je data op te splitsen, kun je veel makkelijker met hele grote gegevenssets werken, omdat elke node maar met een klein deel van de data werkt.
Omdat elke node aan zijn eigen subset van de totale data rekent, voert hij ook een deel van de totale berekeningen uit. Zo verlopen zowel de dataverwerking als de berekeningen parallel over de nodes in het cluster. Parallelle berekening kan bepaalde soorten programmeertaken aanzienlijk versnellen.
Maar met meer rekenkracht komt ook meer complexiteit.
Of Spark de beste oplossing is voor jouw probleem vraagt om wat ervaring, maar je kunt jezelf in elk geval afvragen:
- Is mijn data te groot om op één machine mee te werken?
- Kunnen mijn berekeningen gemakkelijk geparallelliseerd worden?
Heb je zin om meer over Spark te leren?
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen