ComeçarComece de graça

Divisão entre treinamento e teste

Para avaliar um modelo de Machine Learning de forma objetiva, você precisa testá-lo em um conjunto de dados independente. Você não pode usar os mesmos dados que usou para treinar o modelo: é claro que o modelo vai funcionar (relativamente) bem com esses dados!

Você vai dividir os dados em duas partes:

  • dados de treinamento (usados para treinar o modelo) e
  • dados de teste (usados para testar o modelo).

Observação: A partir daqui, você vai trabalhar com um subconjunto menor dos dados dos voos, o que só faz com que os exercícios sejam mais rápidos.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Divida aleatoriamente os dados “ flights ” em dois conjuntos com proporções de 80:20. Para garantir que tudo dá certo, define um número aleatório de 43 para a divisão.
  • Dá uma olhada se os dados de treinamento têm mais ou menos 80% dos registros dos dados originais.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Editar e executar o código