ComenzarEmpieza gratis

Dividir los datos

Ahora que ya has hecho todas tus manipulaciones, el último paso antes de modelar es ¡dividir los datos!

Este ejercicio forma parte del curso

Fundamentos de PySpark

Ver curso

Instrucciones del ejercicio

  • Utiliza el método DataFrame .randomSplit() para dividir piped_data en dos partes, training con el 60 % de los datos, y test con el 40 % de los datos, pasando la lista [.6, .4] al método .randomSplit().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Editar y ejecutar código