Dividir los datos
Ahora que ya has hecho todas tus manipulaciones, el último paso antes de modelar es ¡dividir los datos!
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones de ejercicio
- Utiliza el método DataFrame
.randomSplit()
para dividirpiped_data
en dos partes,training
con el 60 % de los datos, ytest
con el 40 % de los datos, pasando la lista[.6, .4]
al método.randomSplit()
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)