In diesem Kapitel lernst du, wie Spark mit Daten umgeht und wie du mit Python Tabellen lesen und schreiben kannst.

Was ist Spark eigentlich?

Spark in Python verwenden

Den SparkContext untersuchen

DataFrames verwenden

Erstellen einer SparkSession

Tabellen betrachten

Neugierig geworden?

Einen Spark DataFrame pandafizieren

Bringe etwas Spark in deine Daten

Den Mittelsmann weglassen

PySpark kennen lernen

In diesem Kapitel lernst du das Modul pyspark.sql kennen, das optimierte Datenabfragen für deine Spark-Sitzung bereitstellt.

Spalten erzeugen

SQL kurz und bündig

SQL kurz und bündig (2)

Daten filtern

Auswählen

Auswählen von II

Aggregieren

Aggregieren von II

Gruppieren und Aggregieren I

Gruppieren und Aggregieren von II

Verknüpfen

Verknüpfen von II

Daten manipulieren

PySpark verfügt über integrierte, hochmoderne Machine-Learning-Routinen sowie über Hilfsprogramme zur Erstellung kompletter Machine-Learning-Pipelines. In diesem Kapitel lernst du mehr darüber.

Machine-Learning-Pipelines

Die DataFrames verknüpfen

Datentypen

String zu Ganzzahl

Eine neue Spalte erstellen

Einen booleschen Wert erstellen

Strings und Faktoren

Fluggesellschaft

Ziel

Einen Vektor erstellen

Die Pipeline erstellen

Test vs. Train

Daten transformieren

Daten teilen

Erste Schritte mit Machine-Learning-Pipelines

In diesem letzten Kapitel wendest du das Gelernte an, um ein Modell zu erstellen, das vorhersagt, welche Flüge verspätet sein werden.

Was ist logistische Regression?

Modellierer erstellen

Kreuzvalidierung

Den Evaluator erstellen

Ein Raster erstellen

Validator erstellen

Modell(e) trainieren

Binäre Klassifikatoren bewerten

Das Modell bewerten

Modelloptimierung und -auswahl

Airports

Flights

Planes

In diesem Kurs lernst du, wie du Spark mit Python verwendest! Spark ist ein Tool für parallele Berechnungen mit großen Datensätzen und lässt sich gut in Python integrieren. PySpark ist das Python-Paket, das diese Magie möglich macht. Du wirst dieses Paket nutzen, um mit Daten über Flüge von Portland nach Seattle zu arbeiten. Du lernst, diese Daten zu verarbeiten und eine ganze Machine-Learning-Pipeline zu erstellen, um vorherzusagen, ob Flüge verspätet sein werden oder nicht. Mach dich bereit, Spark in deinen Python-Code einzubauen und in die Welt des leistungsstarken Machine Learning einzutauchen!

Introduction to Python

Lerne, Daten zu verarbeiten und eine Machine-Learning-Pipeline mit PySpark zu erstellen.

Einführung in PySpark

Lerne, verteiltes Datenmanagement und maschinelles Lernen in Spark mit dem PySpark-Paket zu implementieren.

Das Modell bewerten

Einführung in PySpark

Anleitung zur Übung

Interaktive Übung