RDDs de coleções paralelizadas
Resilient Distributed Dataset (RDD) é a abstração básica do Spark. É uma coleção distribuída e imutável de objetos. Como o RDD é um tipo de dados fundamental do Spark, é importante que você entenda como criá-lo. Neste exercício, você criará seu primeiro RDD no PySpark a partir de uma coleção de palavras.
Lembre-se de que você já tem um SparkContext sc
disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Crie um RDD chamado
RDD
a partir de uma lista de palavras do Python. - Confirme se o objeto criado é RDD.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))