A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.

Introduction to PySpark

Creating a SparkSession

Loading census data

Introduction to PySpark DataFrames

Scalability and performance

Reading a CSV and performing aggregations

Filtering by company

More on Spark DataFrames

Infer and filter

Schema writeout

Introduction to Apache Spark and PySpark

A continuation of DataFrames and complex datatypes. This section expands on what DataFrames offer in PySpark and introduces some Spark SQL concepts.

Data manipulation with DataFrames

Handling missing data with fill and drop

Column operations - creating and renaming columns

Advanced DataFrame operations

DataFrame combinations

Joining flights with their destination airports

U define it? U use it!

UDF defined

Integers in PySpark UDFs

Pandas UDFs

PySpark in Python

Delve into leveraging Spark SQL and PySpark for scalable data processing, combining SQL's simplicity with PySpark's distributed computing power to handle large datasets efficiently.

Resilient Distributed Datasets in PySpark

Creare RDD

Raccogliere gli RDD

Introduzione a Spark SQL

Eseguire query su una vista temporanea

Eseguire SQL sui DataFrame

Analytics con SQL sui DataFrame

Aggregazioni in PySpark

Aggregazioni negli RDD

Aggregazioni complesse

PySpark su larga scala

Broadcasting

Mettiamo tutto insieme I

Mettiamo tutto insieme II

Cosa abbiamo imparato?

Introduction to PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Questo corso è pensato per data engineer, data scientist e professionisti del Machine Learning che vogliono lavorare con grandi insiemi di dati usando PySpark. Esplorerai velocità e scalabilità di Apache Spark, imparerai a creare sessioni Spark, a lavorare con gli RDD e a manipolare i DataFrame con esercizi pratici. Il corso copre anche PySpark SQL: vedrai come interrogare i dati con SQL, gestire schemi e tipi di dati complessi e ottimizzare le prestazioni in ambienti distribuiti. Al termine, avrai le competenze di base per elaborare e analizzare big data, gettando le basi per applicazioni avanzate come il Machine Learning e la big data analytics.

I video includono trascrizioni dal vivo che puoi visualizzare cliccando su "Show transcript" in basso a sinistra nei video.
Il glossario del corso è disponibile a destra nella sezione delle risorse.
Per ottenere i crediti CPE devi completare il corso e raggiungere un punteggio del 70% nella valutazione qualificata. Puoi andare alla valutazione cliccando sul riquadro dei crediti CPE sulla destra.

Questo corso è perfetto per ingegneri dei dati, data scientist e professionisti del machine learning che vogliono lavorare in modo efficiente con grandi set di dati. Che tu stia passando da strumenti come Pandas o ti stia avvicinando per la prima volta alle tecnologie dei big data, questo corso ti dà una solida introduzione a PySpark e all'elaborazione distribuita dei dati.<br><br>
<h2>Perché Spark? Perché adesso?</h2>
Scopri la velocità e la scalabilità di Apache Spark, il potente framework fatto apposta per gestire i big data. Grazie a lezioni interattive ed esercizi pratici, scoprirai come l'elaborazione in memoria di Spark gli dia un vantaggio rispetto ai framework tradizionali come Hadoop. Inizierai configurando le sessioni Spark e ti immergerai nei componenti principali come i Resilient Distributed Datasets (RDD) e i DataFrame. Impara a filtrare, raggruppare e unire i set di dati in modo facile mentre lavori su esempi reali.<br><br>
<h2>Migliora le tue competenze in Python e SQL per i Big Data</h2>
Scopri come usare PySpark SQL per fare query e gestire i dati usando la sintassi SQL che già conosci. Affronta schemi, tipi di dati complessi e funzioni definite dall'utente (UDF), mentre impari a gestire la cache e a ottimizzare le prestazioni per i sistemi distribuiti.<br><br>
<h2>Costruisci le tue basi per i big data</h2>
Alla fine di questo corso, avrai la sicurezza necessaria per gestire, interrogare ed elaborare grandi quantità di dati usando PySpark. Con queste competenze di base, sarai pronto per approfondire argomenti più complessi come l'apprendimento automatico e l'analisi dei big data.

Introduction to SQL

Data Manipulation with pandas

Impara PySpark per gestire facilmente i big data: elabora, interroga e ottimizza grandi dataset!

Introduzione a PySpark

Diventa esperto di PySpark per gestire i big data: elabora, interroga e ottimizza grandi dataset per analisi efficaci.

Associate Data Engineer in Databricks

Big Data con PySpark

Scienziato specializzato in apprendimento automatico in Python

Ingegnere dei dati professionale in Python

Aggregazioni negli RDD

Introduzione a PySpark

Istruzioni dell'esercizio

Esercizio pratico interattivo