Divisão entre treinamento e teste
Para avaliar um modelo de Machine Learning de forma objetiva, você precisa testá-lo em um conjunto de dados independente. Você não pode usar os mesmos dados que usou para treinar o modelo: é claro que o modelo vai funcionar (relativamente) bem com esses dados!
Você vai dividir os dados em duas partes:
- dados de treinamento (usados para treinar o modelo) e
- dados de teste (usados para testar o modelo).
Observação: A partir daqui, você vai trabalhar com um subconjunto menor dos dados dos voos, o que só faz com que os exercícios sejam mais rápidos.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Divida aleatoriamente os dados “
flights
” em dois conjuntos com proporções de 80:20. Para garantir que tudo dá certo, define um número aleatório de 43 para a divisão. - Dá uma olhada se os dados de treinamento têm mais ou menos 80% dos registros dos dados originais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)