Diese Übung ist Teil des Kurses
Dieses Kapitel führt in die spannende Welt von Big Data ein und stellt die verschiedenen Konzepte und Frameworks für die Verarbeitung dieser riesigen Datenmengen vor. Du wirst verstehen, warum Apache Spark als bestes Framework für Big Data gilt.
Aktuelle Übung
Die wichtigste Abstraktion, die Spark zur Verfügung stellt, ist ein fehlertoleranter verteilter Datensatz – Resilient Distributed Dataset (RDD) –, der die Grundlage und das Rückgrat dieser Engine bildet. Dieses Kapitel führt in RDDs ein und zeigt, wie sie mit RDD-Transformationen und -Aktionen erstellt und ausgeführt werden.
In diesem Kapitel lernst du Spark SQL kennen. Dabei handelt es sich um ein Spark-Modul für die strukturierte Datenverarbeitung. Es bietet eine Programmierabstraktion namens DataFrames und kann auch als verteilte SQL Query Engine fungieren. Dieses Kapitel zeigt, wie du DataFrames mithilfe von Spark SQL in Python nutzen kannst.
PySpark MLlib ist die skalierbare Bibliothek von Apache Spark für maschinelles Lernen in Python und besteht aus gängigen Lernalgorithmen und Dienstprogrammen. In diesem letzten Kapitel lernst du wichtige Algorithmen für maschinelles Lernen kennen. Du erstellst eine Engine für Filmempfehlungen und einen Spam-Filter und wendest k-Means-Clustering an.