IniziaInizia gratis

Suddividere i dati

Ora che hai completato tutte le manipolazioni, l'ultimo passaggio prima del modeling è suddividere i dati!

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il metodo DataFrame .randomSplit() per suddividere piped_data in due parti: training con il 60% dei dati e test con il 40%, passando la lista [.6, .4] al metodo .randomSplit().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Modifica ed esegui il codice