Un’introduzione generale a PySpark e al calcolo distribuito. Questa sezione presenta PySpark, i DataFrame di PySpark e gli RDD.

Introduzione a PySpark

Creare una SparkSession

Caricare i dati del censimento

Introduzione ai DataFrame di PySpark

Scalabilità e prestazioni

Lettura di un CSV ed esecuzione di aggregazioni

Filtrare per azienda

Approfondiamo gli Spark DataFrame

Inferisci e filtra

Scrittura dello schema

Introduzione ad Apache Spark e PySpark

Prosecuzione su DataFrame e tipi di dati complessi. Questa sezione approfondisce ciò che offrono i DataFrame in PySpark e introduce alcuni concetti di Spark SQL.

Manipolazione dei dati con i DataFrame

Gestire i dati mancanti con fill e drop

Operazioni sulle colonne - creazione e rinomina delle colonne

Operazioni avanzate sui DataFrame

Combinazioni di DataFrame

Unire i voli con i loro aeroporti di destinazione

Lo definisci? Lo usi!

UDF definita

Interi nelle UDF di PySpark

Pandas UDF

PySpark in Python

Approfondisci come sfruttare Spark SQL e PySpark per l’elaborazione di dati su larga scala, unendo la semplicità di SQL alla potenza del calcolo distribuito di PySpark per gestire grandi insiemi di dati in modo efficiente.

Resilient Distributed Datasets in PySpark

Creare RDD

Raccogliere gli RDD

Introduzione a Spark SQL

Eseguire query su una vista temporanea

Eseguire SQL sui DataFrame

Analytics con SQL sui DataFrame

Aggregazioni in PySpark

Aggregazioni negli RDD

Aggregazioni complesse

PySpark su larga scala

Broadcasting

Mettiamo tutto insieme I

Mettiamo tutto insieme II

Cosa abbiamo imparato?

Introduzione a PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Questo corso è pensato per data engineer, data scientist e professionisti del Machine Learning che vogliono lavorare con grandi insiemi di dati usando PySpark. Esplorerai velocità e scalabilità di Apache Spark, imparerai a creare sessioni Spark, a lavorare con gli RDD e a manipolare i DataFrame con esercizi pratici. Il corso copre anche PySpark SQL: vedrai come interrogare i dati con SQL, gestire schemi e tipi di dati complessi e ottimizzare le prestazioni in ambienti distribuiti. Al termine, avrai le competenze di base per elaborare e analizzare big data, gettando le basi per applicazioni avanzate come il Machine Learning e la big data analytics.

I video includono trascrizioni dal vivo che puoi visualizzare cliccando su "Show transcript" in basso a sinistra nei video.
Il glossario del corso è disponibile a destra nella sezione delle risorse.
Per ottenere i crediti CPE devi completare il corso e raggiungere un punteggio del 70% nella valutazione qualificata. Puoi andare alla valutazione cliccando sul riquadro dei crediti CPE sulla destra.

Questo corso è perfetto per ingegneri dei dati, data scientist e professionisti del machine learning che vogliono lavorare in modo efficiente con grandi set di dati. Che tu stia passando da strumenti come Pandas o ti stia avvicinando per la prima volta alle tecnologie dei big data, questo corso ti dà una solida introduzione a PySpark e all'elaborazione distribuita dei dati.<br><br>
<h2>Perché Spark? Perché adesso?</h2>
Scopri la velocità e la scalabilità di Apache Spark, il potente framework fatto apposta per gestire i big data. Grazie a lezioni interattive ed esercizi pratici, scoprirai come l'elaborazione in memoria di Spark gli dia un vantaggio rispetto ai framework tradizionali come Hadoop. Inizierai configurando le sessioni Spark e ti immergerai nei componenti principali come i Resilient Distributed Datasets (RDD) e i DataFrame. Impara a filtrare, raggruppare e unire i set di dati in modo facile mentre lavori su esempi reali.<br><br>
<h2>Migliora le tue competenze in Python e SQL per i Big Data</h2>
Scopri come usare PySpark SQL per fare query e gestire i dati usando la sintassi SQL che già conosci. Affronta schemi, tipi di dati complessi e funzioni definite dall'utente (UDF), mentre impari a gestire la cache e a ottimizzare le prestazioni per i sistemi distribuiti.<br><br>
<h2>Costruisci le tue basi per i big data</h2>
Alla fine di questo corso, avrai la sicurezza necessaria per gestire, interrogare ed elaborare grandi quantità di dati usando PySpark. Con queste competenze di base, sarai pronto per approfondire argomenti più complessi come l'apprendimento automatico e l'analisi dei big data.

Introduction to SQL

Data Manipulation with pandas

Impara PySpark per gestire facilmente i big data: elabora, interroga e ottimizza grandi dataset!

Diventa esperto di PySpark per gestire i big data: elabora, interroga e ottimizza grandi dataset per analisi efficaci.

Associate Data Engineer in Databricks

Big Data con PySpark

Scienziato specializzato in apprendimento automatico in Python

Ingegnere dei dati professionale in Python

Variabile	Descrizione
age	Età della persona
education_num	Istruzione per titolo
marital_status	Stato civile
occupation	Occupazione
income	Reddito categorico

Scrittura dello schema

Introduzione a PySpark

Istruzioni dell'esercizio

esercizio interattivo pratico