ComeçarComece de graça

Dividir os dados

Um dataframe df_examples está disponível com as colunas endword: string, features: vector, outvec: vector e label: int. Você vai dividi-lo para obter conjuntos de treino e teste, que serão usados para treinar e testar um classificador.

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Divida os exemplos em treino e teste usando uma divisão 80/20.
  • Imprima o número de exemplos de treino.
  • Imprima o número de exemplos de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)
Editar e executar o código