ComenzarEmpieza gratis

Dividir los datos

Ahora que ya has hecho todas tus manipulaciones, el último paso antes de modelar es ¡dividir los datos!

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones de ejercicio

  • Utiliza el método DataFrame .randomSplit() para dividir piped_data en dos partes, training con el 60 % de los datos, y test con el 40 % de los datos, pasando la lista [.6, .4] al método .randomSplit().

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Editar y ejecutar código