Dividir os dados
Um dataframe df_examples está disponível com as colunas endword: string, features: vector, outvec: vector e label: int. Você vai dividi-lo para obter conjuntos de treino e teste, que serão usados para treinar e testar um classificador.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Divida os exemplos em treino e teste usando uma divisão 80/20.
- Imprima o número de exemplos de treino.
- Imprima o número de exemplos de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)
# Print the number of training examples
print("Number training: ", ____.____)
# Print the number of test examples
print("Number test: ", ____.____)