IniziaInizia gratis

Map e Collect

Il principale metodo con cui puoi manipolare i dati in PySpark è map(). La trasformazione map() prende in input una funzione e la applica a ogni elemento dell’RDD. Può essere usata per fare molte cose: dal recuperare il sito web associato a ciascun URL nella nostra raccolta fino a semplicemente elevare al quadrato dei numeri. In questo semplice esercizio userai la trasformazione map() per elevare al cubo ogni numero dell’RDD numbRDD che hai creato in precedenza. Poi, salverai tutti gli elementi in una variabile e infine stamperai l’output.

Ricorda: hai già uno SparkContext sc e numbRDD disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una trasformazione map() che elevi al cubo tutti i numeri in numbRDD.
  • Raccogli i risultati in una variabile numbers_all.
  • Stampa l’output dalla variabile numbers_all.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)
Modifica ed esegui il codice