Caricare dati nella shell PySpark

In PySpark, esprimiamo i calcoli tramite operazioni su collezioni distribuite che vengono parallelizzate automaticamente sul cluster. Nell’esercizio precedente hai visto un esempio di caricamento di una lista come collezione parallelizzata; in questo esercizio caricherai i dati da un file locale nella shell PySpark.

Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc e la variabile file_path (che è il percorso al file README.md).

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

Carica il file di testo locale README.md nella shell PySpark.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load a local file into PySpark shell
lines = sc.____(file_path)

Modifica ed esegui il codice