Spark gebruiken in Python
De eerste stap in het gebruik van Spark is verbinding maken met een cluster.
In de praktijk draait het cluster op een externe machine die verbonden is met alle andere nodes. Er is één computer, de master, die het opsplitsen van de data en de berekeningen beheert. De master is verbonden met de rest van de computers in het cluster, de workers. De master stuurt de workers data en berekeningen om uit te voeren, en zij sturen hun resultaten terug naar de master.
Als je net begint met Spark is het eenvoudiger om lokaal een cluster te draaien. Daarom worden in deze cursus alle berekeningen uitgevoerd op de servers van DataCamp in een gesimuleerd cluster, in plaats van dat je verbinding maakt met een andere computer.
De verbinding maken is zo simpel als een instantie van de klasse SparkContext aanmaken. De constructor van deze klasse accepteert een paar optionele argumenten waarmee je de eigenschappen van het cluster kunt opgeven waarmee je verbinding maakt.
Een object dat al deze eigenschappen bevat kun je maken met de constructor SparkConf(). Bekijk de documentatie voor alle details!
Voor de rest van deze cursus heb je in je werkruimte al een SparkContext genaamd sc beschikbaar.
Hoe maak je vanuit PySpark verbinding met een Spark-cluster?
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen