Divisão de treinamento/teste

Para avaliar objetivamente um modelo de Machine Learning, você precisa ser capaz de testá-lo em um conjunto independente de dados. Você não pode usar os mesmos dados que usou para treinar o modelo: é claro que o modelo terá um desempenho (relativamente) bom nesses dados!

Você dividirá os dados em dois componentes:

dados de treinamento (usados para treinar o modelo) e
dados de teste (usados para testar o modelo).

Observação: A partir daqui, você trabalhará com um subconjunto menor dos dados dos voos, o que faz com que os exercícios sejam executados mais rapidamente.

Este exercicio faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercicio

Divida aleatoriamente os dados de flights em dois conjuntos com proporções de 80:20. Para garantir a repetibilidade, defina uma semente de número aleatório de 43 para a divisão.
Verifique se os dados de treinamento têm cerca de 80% dos registros dos dados originais.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)

Editar e Executar Código