ComenzarEmpieza gratis

Divide los datos

Tienes disponible un dataframe df_examples con las columnas endword: string, features: vector, outvec: vector y label: int. Vas a dividirlo para obtener los conjuntos de entrenamiento y prueba, que usarás para entrenar y evaluar un clasificador.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Instrucciones del ejercicio

  • Divide los ejemplos en entrenamiento y prueba con una partición 80/20.
  • Imprime el número de ejemplos de entrenamiento.
  • Imprime el número de ejemplos de prueba.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Editar y ejecutar código