Tipi di dati
Ben fatto! Prima di iniziare a creare modelli, è importante sapere che Spark gestisce solo dati numerici. Questo significa che tutte le colonne del tuo DataFrame devono essere o interi o decimali (chiamati "double" in Spark).
Quando abbiamo importato i dati, abbiamo lasciato che Spark indovinasse il tipo di informazione contenuta in ciascuna colonna. Purtroppo, Spark non indovina sempre correttamente e puoi vedere che alcune colonne nel nostro DataFrame sono stringhe che contengono numeri invece di veri valori numerici.
Per rimediare, puoi usare il metodo .cast() in combinazione con il metodo .withColumn().
È importante notare che .cast() funziona sulle colonne, mentre .withColumn() funziona sui DataFrame.
L’unico argomento che devi passare a .cast() è il tipo di valore che vuoi creare, in forma di stringa. Ad esempio, per creare interi, passerai l’argomento "integer" e per i numeri decimali userai "double".
Puoi inserire questa chiamata a .cast() all’interno di una chiamata a .withColumn() per sovrascrivere la colonna esistente, proprio come hai fatto nel capitolo precedente!
Di che tipo di dati ha bisogno Spark per il modeling?
Questo esercizio fa parte del corso
Fondamenti di PySpark
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio