RDDs de conjuntos de dados externos
O PySpark pode criar facilmente RDDs a partir de arquivos armazenados em dispositivos de armazenamento externos, como HDFS (Hadoop Distributed File System), buckets do Amazon S3, etc. No entanto, o método mais comum de criar RDD's é a partir de arquivos armazenados no sistema de arquivos local. Esse método usa um caminho de arquivo e o lê como uma coleção de linhas. Neste exercício, você criará um RDD a partir do caminho do arquivo (file_path
) com o nome de arquivo README.md
que já está disponível no seu espaço de trabalho.
Lembre-se de que você já tem um SparkContext sc
disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Imprima o
file_path
no shell do PySpark. - Crie um RDD chamado
fileRDD
a partir de umfile_path
. - Imprima o tipo do
fileRDD
criado.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))