Questo capitolo introduce l’entusiasmante mondo dei Big Data, insieme ai vari concetti e ai diversi framework per l’elaborazione dei Big Data. Capirai perché Apache Spark è considerato il miglior framework per i Big Data.

Che cos'è il Big Data?

Le 3 V del Big Data

PySpark: Spark con Python

Capire SparkContext

Uso interattivo di PySpark

Caricare dati nella shell PySpark

Ripasso sulla programmazione funzionale in Python

Uso di lambda() con map()

Uso di lambda() con filter()

Introduzione all’analisi dei Big Data con Spark

La principale astrazione offerta da Spark è il resilient distributed dataset (RDD), che è il tipo di dato fondamentale e portante di questo motore. Questo capitolo introduce gli RDD e mostra come crearli ed eseguirli usando le RDD Transformations e le Actions.

Astrazione dei dati con gli RDD

RDD da collezioni parallelizzate

RDD da dataset esterni

Partizioni nei tuoi dati

Trasformazioni e azioni RDD di base

Map e Collect

Filtra e conta

Pair RDD in PySpark

ReduceByKey e Collect

SortByKey e Collect

Azioni RDD avanzate

CountingBykeys

Crea un RDD di base e trasformalo

Rimuovi le stop word e riduci l'insieme di dati

Stampa le frequenze delle parole

Programmare con gli RDD di PySpark

In questo capitolo scoprirai Spark SQL, un modulo di Spark per l’elaborazione di dati strutturati. Fornisce un’astrazione di programmazione chiamata DataFrame e può anche funzionare come motore distribuito per query SQL. Questo capitolo mostra come Spark SQL ti permette di usare i DataFrame in Python.

Astrazione dei dati con i DataFrame

Da RDD a DataFrame

Caricare un CSV in un DataFrame

Operare sui DataFrame in PySpark

Ispezionare i dati in un DataFrame PySpark

Sottoinsiemi e pulizia di DataFrame in PySpark

Filtrare il tuo DataFrame

Interagire con i DataFrame usando PySpark SQL

Eseguire query SQL in modo programmatico

Query SQL per filtrare una tabella

Visualizzazione dei dati in PySpark con i DataFrame

Visualizzazione di DataFrame PySpark

Parte 1: Crea un DataFrame da un file CSV

Parte 2: query SQL su DataFrame

Parte 3: Visualizzazione dei dati

PySpark SQL e DataFrame

PySpark MLlib è la libreria scalabile di Machine Learning di Apache Spark per Python, composta da algoritmi e utilità comuni. In questo ultimo capitolo imparerai importanti algoritmi di Machine Learning. Costruirai un motore di raccomandazione di film e un filtro antispam e userai il clustering k-means.

Panoramica di PySpark MLlib

Librerie ML di PySpark

Algoritmi di PySpark MLlib

Collaborative filtering

Caricare il dataset MovieLens negli RDD

Addestramento del modello e predizioni

Valutazione del modello usando MSE

Classificazione

Caricare dati spam e non-spam

Feature hashing e LabelPoint

Training del modello di Logistic Regression

Clustering

Caricamento e parsing dei dati con 5000 punti

Addestramento K-means

Visualizzare i cluster

Congratulazioni!

Machine Learning con PySpark MLlib

Complete Shakespeare

Movie ratings

5000 points

FIFA 2018

People

Spam

Negli ultimi anni si è parlato molto di Big Data, e ormai sono entrati nel mainstream per molte aziende. Ma cosa sono davvero i Big Data? Questo corso copre i fondamenti dei Big Data tramite PySpark. Spark è un framework di "lightning fast cluster computing" per i Big Data. Fornisce un motore generale per l’elaborazione dei dati e ti permette di eseguire programmi fino a 100 volte più veloci in memoria, o 10 volte più veloci su disco, rispetto a Hadoop. Userai PySpark, un pacchetto Python per programmare in Spark, e le sue potenti librerie di livello superiore come SparkSQL, MLlib (per il Machine Learning), ecc. Esplorerai le opere di William Shakespeare, analizzerai i dati dei Mondiali Fifa 2018 ed eseguirai il clustering su insiemi di dati genomici. Al termine del corso, avrai una comprensione approfondita di PySpark e della sua applicazione all’analisi generale dei Big Data.

Introduction to Python

Impara ad analizzare Big Data con PySpark, SparkSQL e MLlib per la programmazione in Spark.

Clustering

Create Your Free Account