Aan de slagGa gratis aan de slag

DataFrames gebruiken

Sparks kerngegevensstructuur is de Resilient Distributed Dataset (RDD). Dit is een low-level object waarmee Spark zijn magie kan doen door data over meerdere nodes in het cluster te verdelen. RDD's zijn echter lastig om direct mee te werken, dus in deze cursus gebruik je de Spark DataFrame-abstrahering die boven op RDD's is gebouwd.

De Spark DataFrame is ontworpen om zich veel te gedragen als een SQL-tabel (een tabel met variabelen in de kolommen en observaties in de rijen). DataFrames zijn niet alleen makkelijker te begrijpen, ze zijn ook beter geoptimaliseerd voor complexe bewerkingen dan RDD's.

Als je kolommen en rijen gaat aanpassen en combineren, zijn er veel manieren om tot hetzelfde resultaat te komen, maar sommige kosten veel meer tijd dan andere. Bij RDD's moet de data scientist zelf uitzoeken hoe je de query optimaal uitvoert, maar de DataFrame-implementatie heeft veel van deze optimalisatie al ingebouwd!

Om met Spark DataFrames te werken, moet je eerst een SparkSession-object maken vanuit je SparkContext. Je kunt de SparkContext zien als je verbinding met het cluster en de SparkSession als je interface met die verbinding.

Onthoud: voor de rest van deze cursus heb je een SparkSession met de naam spark beschikbaar in je werkruimte!

Wat is een voordeel van Spark DataFrames ten opzichte van RDD's?

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen