RDD da dataset esterni
PySpark può creare facilmente RDD da file archiviati in dispositivi di archiviazione esterni, come HDFS (Hadoop Distributed File System), bucket Amazon S3, ecc. Tuttavia, il metodo più comune per creare RDD è a partire da file salvati nel file system locale. Questo metodo prende un percorso di file e lo legge come una raccolta di righe. In questo esercizio, creerai un RDD dal percorso del file (file_path) con il nome del file README.md, già disponibile nel tuo workspace.
Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Stampa
file_pathnella shell PySpark. - Crea un RDD chiamato
fileRDDa partire dafile_path. - Stampa il tipo dell'
fileRDDcreato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))