Aan de slagGa gratis aan de slag

Splits de gegevens

Nu je alle bewerkingen hebt gedaan, is de laatste stap vóór het modelleren: de gegevens splitsen!

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Oefeninstructies

  • Gebruik de DataFrame-methode .randomSplit() om piped_data in twee delen te splitsen: training met 60% van de gegevens en test met 40% van de gegevens. Geef hiervoor de lijst [.6, .4] mee aan de methode .randomSplit().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Code bewerken en uitvoeren