ComenzarEmpieza gratis

Probar frente a entrenar

Después de limpiar los datos y prepararlos para el modelado, uno de los pasos más importantes es dividir los datos en un conjunto de prueba y un conjunto de entrenamiento. Después, ¡no toques tus datos de prueba hasta que creas que tienes un buen modelo! A medida que construyas modelos y formes hipótesis, puedes probarlos con tus datos de entrenamiento para hacerte una idea de su rendimiento.

Una vez que tengas tu modelo favorito, puedes ver lo bien que predice los nuevos datos de tu conjunto de pruebas. Estos datos nunca vistos te darán una idea mucho más realista del rendimiento de tu modelo en el mundo real cuando intentes predecir o clasificar nuevos datos.

En Spark es importante asegurarse de dividir los datos después de todas las transformaciones. Esto se debe a que operaciones como StringIndexer no siempre producen el mismo índice aunque se les dé la misma lista de cadenas.

¿Por qué es importante utilizar un conjunto de pruebas en la evaluación de modelos?

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Ejercicio interactivo práctico

Convierte la teoría en acción con uno de nuestros ejercicios interactivos

Empieza a hacer ejercicio