Pickles

Finalmente, é hora de colocar seu primeiro modelo em produção. É um classificador de random forest que você usará como baseline enquanto ainda trabalha para desenvolver uma alternativa melhor. Você tem acesso à divisão dos dados em treino e teste com seus nomes usuais, X_train, X_test, y_train e y_test, bem como aos módulos RandomForestClassifier() e pickle, cujos métodos .load() e .dump() você vai precisar neste exercício.

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Ajuste um classificador de random forest aos dados. Fixe a semente aleatória em 42 para garantir que seus resultados sejam reprodutíveis.
Escreva o modelo em um arquivo usando pickle. Abra o arquivo de destino usando a sintaxe with open(____) as ____.
Agora carregue o modelo do arquivo em uma variável com nome diferente, clf_from_file.
Armazene as previsões do modelo que você carregou em uma variável preds.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Fit a random forest to the training set
clf = ____(____=42).____(
  X_train, y_train)

# Save it to a file, to be pushed to production
with ____('model.pkl', ____) as ____:
    pickle.____(clf, file=file)

# Now load the model from file in the production environment
with ____ as file:
    clf_from_file = pickle.____(file)

# Predict the labels of the test dataset
preds = clf_from_file.____

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais