Mapear e coletar

O principal método com o qual você pode manipular dados no PySpark é usando map(). A transformação map() recebe uma função e a aplica a cada elemento do RDD. Ela pode ser usada para fazer uma série de coisas, desde buscar o site associado a cada URL em nossa coleção até simplesmente elevar os números ao quadrado. Neste exercício simples, você usará a transformação map() para transformar em cubo cada número do RDD numbRDD que você criou anteriormente. Em seguida, você armazenará todos os elementos em uma variável e, por fim, imprimirá a saída.

Lembre-se de que você já tem um SparkContext sc e numbRDD disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

Crie uma transformação map() que cubra todos os números em numbRDD.
Colete os resultados em uma variável numbers_all.
Imprima a saída da variável numbers_all.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)

Editar e executar o código