Caricare dati nella shell PySpark
In PySpark, esprimiamo i calcoli tramite operazioni su collezioni distribuite che vengono parallelizzate automaticamente sul cluster. Nell’esercizio precedente hai visto un esempio di caricamento di una lista come collezione parallelizzata; in questo esercizio caricherai i dati da un file locale nella shell PySpark.
Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc e la variabile file_path (che è il percorso al file README.md).
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Carica il file di testo locale
README.mdnella shell PySpark.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load a local file into PySpark shell
lines = sc.____(file_path)