ComeçarComece gratuitamente

RDDs de coleções paralelizadas

Resilient Distributed Dataset (RDD) é a abstração básica do Spark. É uma coleção distribuída e imutável de objetos. Como o RDD é um tipo de dados fundamental do Spark, é importante que você entenda como criá-lo. Neste exercício, você criará seu primeiro RDD no PySpark a partir de uma coleção de palavras.

Lembre-se de que você já tem um SparkContext sc disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Crie um RDD chamado RDD a partir de uma lista de palavras do Python.
  • Confirme se o objeto criado é RDD.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))
Editar e executar código