Split the data
Now that you've done all your manipulations, the last step before modeling is to split the data!
Questo esercizio fa parte del corso
Foundations of PySpark
Istruzioni dell'esercizio
- Use the DataFrame method
.randomSplit()to splitpiped_datainto two pieces,trainingwith 60% of the data, andtestwith 40% of the data by passing the list[.6, .4]to the.randomSplit()method.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)