Spark è un framework per lavorare con i Big Data. In questo capitolo vedrai alcune nozioni di base su Spark e sul Machine Learning. Poi scoprirai come connetterti a Spark con Python e caricare dati CSV.

Machine Learning e Spark

Caratteristiche di Spark

Componenti in un cluster Spark

Connessione a Spark

Posizione dello Spark master

Creare una SparkSession

Caricare i dati

Caricare i dati dei voli

Caricare i dati SMS spam

Introduzione

Ora che sai come importare i dati in Spark, passerai alla costruzione di due tipi di modelli di classificazione: Alberi decisionali e Regressione logistica. Scoprirai anche alcuni approcci alla preparazione dei dati.

Preparazione dei dati

Rimozione di colonne e righe

Manipolazione delle colonne

Colonne categoriche

Assemblare le colonne

Albero di decisione

Suddivisione train/test

Crea un Decision Tree

Valuta il Decision Tree

Logistic Regression

Crea un modello di Logistic Regression

Valuta il modello di Logistic Regression

Trasformare il testo in tabelle

Punteggiatura, numeri e token

Stopwords e hashing

Addestrare un classificatore di spam

Classificazione

Successivamente imparerai a creare modelli di Regressione lineare. Inoltre vedrai come arricchire i dati progettando nuovi predittori e un approccio solido per selezionare solo i predittori più rilevanti.

One-Hot Encoding

Codifica dell'aeroporto di partenza

Codifica delle taglie delle magliette

Regressione

Modello per la durata del volo: solo distanza

Interpretare i coefficienti

Modello della durata del volo: aggiungere l'aeroporto di origine

Suddivisione in bucket e feature engineering

Raggruppare l'orario di partenza in bucket

Modello della durata del volo: aggiungere l'orario di partenza

Regolarizzazione

Modello della durata del volo: più feature!

Modello per la durata dei voli: Regularization!

Infine imparerai a rendere i tuoi modelli più efficienti. Scoprirai come usare le pipeline per rendere il codice più chiaro e facile da mantenere. Poi userai la convalida incrociata per testare meglio i modelli e scegliere buoni iperparametri. Infine sperimenterai due tipi di modelli ensemble.

Pipeline

Modello della durata del volo: fasi della pipeline

Modello di durata del volo: modello Pipeline

Pipeline per SMS spam

Cross-Validation

Convalida incrociata di un semplice modello di durata del volo

Convalida incrociata della pipeline del modello di durata del volo

Ricerca a griglia

Ottimizzare la regressione lineare sui voli

Analizzare il miglior modello per la durata dei voli

Ottimizzazione spam SMS

Quanti modelli per la grid search?

Ensemble

Ritardi dei voli con Gradient-Boosted Trees

Voli in ritardo con una Random Forest

Valutare Random Forest

Considerazioni finali

Ensemble e Pipeline

Flights

Spark è uno strumento potente e generico per lavorare con i Big Data. Spark gestisce in modo trasparente la distribuzione dei compiti di calcolo su un cluster. Questo rende le operazioni veloci e ti permette anche di concentrarti sull’analisi invece che sui dettagli tecnici. In questo corso imparerai a caricare i dati in Spark e poi approfondirai tre algoritmi fondamentali di Machine Learning in Spark: Regressione lineare, Regressione logistica/Classificatori e la creazione di pipeline. Lungo il percorso analizzerai un ampio insieme di dati sui ritardi dei voli e messaggi di testo di spam. Con queste basi sarai pronto a sfruttare la potenza di Spark e applicarla ai tuoi progetti di Machine Learning!

<h2>Impara a usare Apache Spark per il machine learning</h2> 
Spark è uno strumento potente e versatile per lavorare con i Big Data. Spark gestisce in modo trasparente la distribuzione dei compiti di calcolo all'interno di un cluster. Questo vuol dire che le operazioni sono veloci, ma ti permette anche di concentrarti sull'analisi invece di preoccuparti dei dettagli tecnici. In questo corso imparerai come inserire i dati in Spark e poi approfondirai i tre algoritmi fondamentali di Spark Machine Learning: Regressione lineare, regressione logistica/classificatori e creazione di pipeline.
<br><br> 
<h2>Costruire e testare alberi decisionali</h2> 
Creare i tuoi alberi decisionali è un ottimo modo per iniziare a esplorare i modelli di apprendimento automatico. Userai un algoritmo chiamato "partizionamento ricorsivo" per dividere i dati in due classi e trovare un predittore all'interno dei tuoi dati che porti alla divisione più informativa delle due classi, e ripeterai questa operazione con altri nodi. Puoi quindi usare il tuo albero decisionale per fare previsioni con nuovi dati.
<br><br> 
<h2>Padroneggia la logistica e la regressione lineare in PySpark</h2> 
La regressione logistica e lineare sono tecniche di machine learning super importanti supportate da PySpark. Imparerai a costruire e valutare modelli di regressione logistica, prima di passare alla creazione di modelli di regressione lineare che ti aiuteranno a perfezionare i tuoi predittori selezionando solo le opzioni più rilevanti.
<br><br> 
Alla fine del corso, ti sentirai sicuro nell'applicare le tue nuove conoscenze sul machine learning, grazie alle attività pratiche e ai set di dati di esercitazione che troverai durante il corso.

Supervised Learning with scikit-learn

Introduction to PySpark

Impara a fare previsioni dai dati con Apache Spark usando alberi decisionali, regressioni e pipeline.

Machine Learning con PySpark

Impara a fare previsioni dai dati con Apache Spark, usando alberi decisionali, regressione logistica, regressione lineare, insiemi e pipeline.

Ensemble

Create Your Free Account