Dividir los datos
Ahora que ya has hecho todas tus manipulaciones, el último paso antes de modelar es ¡dividir los datos!
Este ejercicio forma parte del curso
Fundamentos de PySpark
Instrucciones del ejercicio
- Utiliza el método DataFrame
.randomSplit()para dividirpiped_dataen dos partes,trainingcon el 60 % de los datos, ytestcon el 40 % de los datos, pasando la lista[.6, .4]al método.randomSplit().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)