ComeçarComece de graça

Divisão de treinamento/teste

Para avaliar objetivamente um modelo de Machine Learning, você precisa ser capaz de testá-lo em um conjunto independente de dados. Você não pode usar os mesmos dados que usou para treinar o modelo: é claro que o modelo terá um desempenho (relativamente) bom nesses dados!

Você dividirá os dados em dois componentes:

  • dados de treinamento (usados para treinar o modelo) e
  • dados de teste (usados para testar o modelo).

Observação: A partir daqui, você trabalhará com um subconjunto menor dos dados dos voos, o que faz com que os exercícios sejam executados mais rapidamente.

Este exercício faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercício

  • Divida aleatoriamente os dados de flights em dois conjuntos com proporções de 80:20. Para garantir a repetibilidade, defina uma semente de número aleatório de 43 para a divisão.
  • Verifique se os dados de treinamento têm cerca de 80% dos registros dos dados originais.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Editar e executar o código