Aan de slagBegin gratis

Splits de gegevens

Nu je alle bewerkingen hebt gedaan, is de laatste stap vóór het modelleren: de gegevens splitsen!

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Bekijk cursus

Oefeninstructies

  • Gebruik de DataFrame-methode .randomSplit() om piped_data in twee delen te splitsen: training met 60% van de gegevens en test met 40% van de gegevens. Geef hiervoor de lijst [.6, .4] mee aan de methode .randomSplit().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Code bewerken en uitvoeren