RDDs de coleções paralelizadas

Resilient Distributed Dataset (RDD) é a abstração básica do Spark. É uma coleção distribuída e imutável de objetos. Como o RDD é um tipo de dados fundamental do Spark, é importante que você entenda como criá-lo. Neste exercício, você criará seu primeiro RDD no PySpark a partir de uma coleção de palavras.

Lembre-se de que você já tem um SparkContext sc disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

Crie um RDD chamado RDD a partir de uma lista de palavras do Python.
Confirme se o objeto criado é RDD.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))

Editar e executar o código