Comece agoraComece grátis

Dividir os dados

Um dataframe df_examples está disponível com as colunas endword: string, features: vector, outvec: vector e label: int. Você vai dividi-lo para obter conjuntos de treino e teste, que serão usados para treinar e testar um classificador.

Este exercicio faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercicio

  • Divida os exemplos em treino e teste usando uma divisão 80/20.
  • Imprima o número de exemplos de treino.
  • Imprima o número de exemplos de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Editar e Executar Código