Divisão de treinamento/teste
Para avaliar objetivamente um modelo de Machine Learning, você precisa ser capaz de testá-lo em um conjunto independente de dados. Você não pode usar os mesmos dados que usou para treinar o modelo: é claro que o modelo terá um desempenho (relativamente) bom nesses dados!
Você dividirá os dados em dois componentes:
- dados de treinamento (usados para treinar o modelo) e
- dados de teste (usados para testar o modelo).
Observação: A partir daqui, você trabalhará com um subconjunto menor dos dados dos voos, o que faz com que os exercícios sejam executados mais rapidamente.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Divida aleatoriamente os dados de
flights
em dois conjuntos com proporções de 80:20. Para garantir a repetibilidade, defina uma semente de número aleatório de 43 para a divisão. - Verifique se os dados de treinamento têm cerca de 80% dos registros dos dados originais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)