ComeçarComece de graça

Mapear e coletar

O principal método com o qual você pode manipular dados no PySpark é usando map(). A transformação map() recebe uma função e a aplica a cada elemento do RDD. Ela pode ser usada para fazer uma série de coisas, desde buscar o site associado a cada URL em nossa coleção até simplesmente elevar os números ao quadrado. Neste exercício simples, você usará a transformação map() para transformar em cubo cada número do RDD numbRDD que você criou anteriormente. Em seguida, você armazenará todos os elementos em uma variável e, por fim, imprimirá a saída.

Lembre-se de que você já tem um SparkContext sc e numbRDD disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

  • Crie uma transformação map() que cubra todos os números em numbRDD.
  • Colete os resultados em uma variável numbers_all.
  • Imprima a saída da variável numbers_all.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)
Editar e executar o código