RDDs de conjuntos de dados externos

O PySpark pode criar facilmente RDDs a partir de arquivos armazenados em dispositivos de armazenamento externos, como HDFS (Hadoop Distributed File System), buckets do Amazon S3, etc. No entanto, o método mais comum de criar RDD's é a partir de arquivos armazenados no sistema de arquivos local. Esse método usa um caminho de arquivo e o lê como uma coleção de linhas. Neste exercício, você criará um RDD a partir do caminho do arquivo (file_path) com o nome de arquivo README.md que já está disponível no seu espaço de trabalho.

Lembre-se de que você já tem um SparkContext sc disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

Imprima o file_path no shell do PySpark.
Crie um RDD chamado fileRDD a partir de um file_path.
Imprima o tipo do fileRDD criado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))

Editar e executar o código