ComeçarComece gratuitamente

RDDs de conjuntos de dados externos

O PySpark pode criar facilmente RDDs a partir de arquivos armazenados em dispositivos de armazenamento externos, como HDFS (Hadoop Distributed File System), buckets do Amazon S3, etc. No entanto, o método mais comum de criar RDD's é a partir de arquivos armazenados no sistema de arquivos local. Esse método usa um caminho de arquivo e o lê como uma coleção de linhas. Neste exercício, você criará um RDD a partir do caminho do arquivo (file_path) com o nome de arquivo README.md que já está disponível no seu espaço de trabalho.

Lembre-se de que você já tem um SparkContext sc disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Imprima o file_path no shell do PySpark.
  • Crie um RDD chamado fileRDD a partir de um file_path.
  • Imprima o tipo do fileRDD criado.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))
Editar e executar código