Splits de gegevens
Nu je alle bewerkingen hebt gedaan, is de laatste stap vóór het modelleren: de gegevens splitsen!
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Gebruik de DataFrame-methode
.randomSplit()ompiped_datain twee delen te splitsen:trainingmet 60% van de gegevens entestmet 40% van de gegevens. Geef hiervoor de lijst[.6, .4]mee aan de methode.randomSplit().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)