IniziaInizia gratis

Caricare dati nella shell PySpark

In PySpark, esprimiamo i calcoli tramite operazioni su collezioni distribuite che vengono parallelizzate automaticamente sul cluster. Nell’esercizio precedente hai visto un esempio di caricamento di una lista come collezione parallelizzata; in questo esercizio caricherai i dati da un file locale nella shell PySpark.

Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc e la variabile file_path (che è il percorso al file README.md).

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il file di testo locale README.md nella shell PySpark.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load a local file into PySpark shell
lines = sc.____(file_path)
Modifica ed esegui il codice