V této kapitole se dozvíš, jak Spark spravuje data a jak číst a zapisovat tabulky z Pythonu.

Co je vlastně Spark?

Použití Sparku v Pythonu

Prozkoumání SparkContext

Práce s DataFrames

Vytvoření SparkSession

Zobrazení tabulek

Zvládneš SQL dotaz?

Převod Spark DataFrame na pandas

Přidej Spark do svých dat

Bez zbytečných mezikroků

Seznámení s PySparkem

V této kapitole se seznámíš s modulem pyspark.sql, který ti umožňuje spouštět optimalizované dotazy nad daty ve Spark session.

Vytváření sloupců

SQL ve zkratce

SQL v kostce (2)

Filtrování dat

Výběr sloupců

Výběr sloupců II

Agregace

Agregace II

Seskupování a agregace I

Seskupování a agregace II

Joinování

Spojování tabulek II

Manipulace s daty

PySpark obsahuje špičkové vestavěné rutiny strojového učení a nástroje pro tvorbu kompletních pipeline. V této kapitole se je naučíš používat.

Pipelines pro strojové učení

Spoj DataFrames

Datové typy

String na integer

Vytvoření nového sloupce

Vytvoření booleovského sloupce

Řetězce a faktory

Dopravce

Destinace

Sestavení vektoru

Vytvoření pipeline

Testovací vs. trénovací sada

Transformace dat

Rozdělení dat

První kroky s pipeline strojového učení

V této závěrečné kapitole využiješ vše, co ses naučil/a, a sestavíš model pro předpovídání zpoždění letů.

Co je logistická regrese?

Vytvoření modelu

Křížová validace

Vytvoření evaluátoru

Vytvoření mřížky

Vytvoř validátor

Natrénování modelu (modelů)

Vyhodnocování binárních klasifikátorů

Vyhodnocení modelu

Ladění a výběr modelu

Airports

Planes

Flights

V tomto kurzu se naučíš pracovat se Sparkem v Pythonu! Spark je nástroj pro paralelní zpracování velkých datových sad a skvěle se integruje s Pythonem. PySpark je pythonovský balíček, který za tím vším stojí. Použiješ ho k práci s daty o letech z Portlandu a Seattlu. Naučíš se tato data zpracovávat a postavíš celý pipeline strojového učení pro předpovídání zpoždění letů. Připrav se na to, že do svého Pythonu přidáš trochu Sparku a ponoříš se do světa vysokovýkonného strojového učení!

Introduction to Python

Naučte se zpracovávat data a vytvářet ML pipeline pro predikce s PySpark. Procvičte se na reálných datech.

Foundations of PySpark

Naučte se implementovat distribuovanou správu dat a strojové učení v Spark pomocí balíčku PySpark.

Seskupování a agregace I

Foundations of PySpark

Pokyny k cvičení

Interaktivní cvičení na vyzkoušení si v praxi