or
Deze oefening maakt deel uit van de cursus
In dit hoofdstuk maak je kennis met de spannende wereld van Big Data, evenals met de verschillende concepten en frameworks voor de verwerking ervan. Je ontdekt waarom Apache Spark wordt gezien als het beste framework voor Big Data.
De belangrijkste abstractie die Spark biedt is een resilient distributed dataset (RDD), het fundamentele en ruggengraat-datatype van deze engine. Dit hoofdstuk introduceert RDD’s en laat zien hoe je RDD’s kunt maken en uitvoeren met RDD-transformations en actions.
In dit hoofdstuk leer je over Spark SQL, een Spark-module voor de verwerking van gestructureerde gegevens. Het biedt een programmeerabstractie genaamd DataFrames en kan ook fungeren als een gedistribueerde SQL-query-engine. Dit hoofdstuk laat zien hoe Spark SQL je in staat stelt DataFrames in Python te gebruiken.
PySpark MLlib is de schaalbare Machine Learning-bibliotheek van Apache Spark in Python, bestaande uit gangbare leeralgoritmen en hulpmiddelen. In dit laatste hoofdstuk leer je belangrijke Machine Learning-algoritmen. Je bouwt een filmaanbevelingsengine en een spamfilter, en je gebruikt k-means clustering.
Huidige oefening