or
Questo esercizio fa parte del corso
Questo capitolo introduce l’entusiasmante mondo dei Big Data, insieme ai vari concetti e ai diversi framework per l’elaborazione dei Big Data. Capirai perché Apache Spark è considerato il miglior framework per i Big Data.
La principale astrazione offerta da Spark è il resilient distributed dataset (RDD), che è il tipo di dato fondamentale e portante di questo motore. Questo capitolo introduce gli RDD e mostra come crearli ed eseguirli usando le RDD Transformations e le Actions.
In questo capitolo scoprirai Spark SQL, un modulo di Spark per l’elaborazione di dati strutturati. Fornisce un’astrazione di programmazione chiamata DataFrame e può anche funzionare come motore distribuito per query SQL. Questo capitolo mostra come Spark SQL ti permette di usare i DataFrame in Python.
PySpark MLlib è la libreria scalabile di Machine Learning di Apache Spark per Python, composta da algoritmi e utilità comuni. In questo ultimo capitolo imparerai importanti algoritmi di Machine Learning. Costruirai un motore di raccomandazione di film e un filtro antispam e userai il clustering k-means.
Esercizio attuale