IniziaInizia gratis

RDD da dataset esterni

PySpark può creare facilmente RDD da file archiviati in dispositivi di archiviazione esterni, come HDFS (Hadoop Distributed File System), bucket Amazon S3, ecc. Tuttavia, il metodo più comune per creare RDD è a partire da file salvati nel file system locale. Questo metodo prende un percorso di file e lo legge come una raccolta di righe. In questo esercizio, creerai un RDD dal percorso del file (file_path) con il nome del file README.md, già disponibile nel tuo workspace.

Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Stampa file_path nella shell PySpark.
  • Crea un RDD chiamato fileRDD a partire da file_path.
  • Stampa il tipo dell'fileRDD creato.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))
Modifica ed esegui il codice