In questo capitolo imparerai come Spark gestisce i dati e come puoi leggere e scrivere tabelle da Python.

Ma quindi, cos’è Spark?

Usare Spark in Python

Esplorare lo SparkContext

Usare i DataFrame

Creare una SparkSession

Visualizzare le tabelle

Ti senti query-oso?

Converti un DataFrame di Spark in pandas

Metti un po’ di Spark nei tuoi dati

Eliminare l'intermediario

Conoscere PySpark

In questo capitolo scoprirai il modulo pyspark.sql, che fornisce query sui dati ottimizzate per la tua sessione Spark.

Creare colonne

SQL in poche parole

SQL in breve (2)

Filtrare i dati

Selezione

Selezionare II

Aggregazioni

Aggregazioni II

Raggruppare e aggregare I

Raggruppamento e aggregazione II

Join

Join II

Manipolare i dati

PySpark include routine di Machine Learning all'avanguardia e strumenti per creare pipeline complete di Machine Learning. Le conoscerai in questo capitolo.

Pipeline di Machine Learning

Fai il join dei DataFrame

Tipi di dati

Da stringa a intero

Crea una nuova colonna

Creare un booleano

Stringhe e fattori

Carrier

Destinazione

Assembla un vettore

Crea la pipeline

Test vs. Train

Trasforma i dati

Suddividere i dati

Primi passi con le pipeline di Machine Learning

In quest'ultimo capitolo applicherai ciò che hai imparato per creare un modello che preveda quali voli subiranno ritardi.

Che cos'è la regressione logistica?

Crea il modellatore

Cross validation

Crea l'evaluator

Crea una griglia

Crea il validator

Esegui il fit del/dei modello/i

Valutare i classificatori binari

Valuta il modello

Ottimizzazione e selezione del modello

Airports

Flights

Planes

In questo corso imparerai a usare Spark da Python! Spark è uno strumento per eseguire calcoli paralleli su grandi insiemi di dati e si integra molto bene con Python. PySpark è il pacchetto Python che rende tutto questo possibile. Userai questo pacchetto per lavorare con i dati dei voli da Portland e Seattle. Imparerai a manipolare questi dati e a costruire un'intera pipeline di Machine Learning per prevedere se i voli subiranno ritardi. Preparati a dare una marcia in più al tuo codice Python e a tuffarti nel mondo del Machine Learning ad alte prestazioni!

Introduction to Python

Impara a gestire i dati e crea una pipeline di machine learning con PySpark. Esercitati con dati reali.

Fondamenti di PySpark

Impara a usare la gestione distribuita dei dati e l'apprendimento automatico in Spark con il pacchetto PySpark.

Raggruppamento e aggregazione II

Fondamenti di PySpark

Istruzioni dell'esercizio

esercizio interattivo pratico