Suddividere i dati
Ora che hai completato tutte le manipolazioni, l'ultimo passaggio prima del modeling è suddividere i dati!
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Usa il metodo DataFrame
.randomSplit()per suddividerepiped_datain due parti:trainingcon il 60% dei dati etestcon il 40%, passando la lista[.6, .4]al metodo.randomSplit().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)