Ajustando o tamanho da janela

Você quer verificar por conta própria que o tamanho de janela ideal para o conjunto de dados de arritmia é 50. Você recebeu o conjunto como um data frame do pandas chamado arrh e quer usar um subconjunto dos dados até o tempo t_now. Seus dados de teste estão disponíveis como X_test, y_test. Você vai testar vários tamanhos de janela, de 10 a 100, ajustar um classificador Naive Bayes a cada janela, avaliar seu F1 score nos dados de teste e, em seguida, escolher o tamanho de janela com melhor desempenho. Você também tem numpy disponível como np, e a função f1_score() já foi importada. Por fim, uma lista vazia chamada accuracies foi inicializada para você armazenar as acurácias das janelas.

Este exercicio faz parte do curso

Projetando Workflows de Machine Learning em Python

Ver curso

Instruções do exercicio

Defina o índice de uma janela deslizante de tamanho w_size terminando em t_now usando o método .loc().
Construa X a partir da janela deslizante removendo a coluna class. Armazene essa última coluna como y.
Ajuste um classificador Naive Bayes a X e y, e use-o para prever os rótulos dos dados de teste X_test.
Calcule o F1 score dessas previsões para cada tamanho de janela e encontre o tamanho de janela com melhor desempenho.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Loop over window sizes
for w_size in wrange:

    # Define sliding window
    sliding = arrh.____[____:t_now]

    # Extract X and y from the sliding window
    X, y = sliding.____('class', ____), sliding[____]
    
    # Fit the classifier and store the F1 score
    preds = GaussianNB().fit(____, ____).____(X_test)
    accuracies.append(____(____, ____))

# Estimate the best performing window size
optimal_window = ____[np.____(accuracies)]

Editar e Executar Código

Projetando Workflows de Machine Learning em Python

AvançadoNível de habilidade

4.8+

94 reviews

Nos capítulos anteriores, você estabeleceu uma base sólida em aprendizado supervisionado, incluindo o conhecimento de como colocar modelos em produção, mas sempre assumindo que haveria um conjunto de dados rotulado disponível para sua análise. Neste capítulo, você encara o desafio de modelar dados sem rótulos — ou com pouquíssimos rótulos. Isso te leva a uma jornada por detecção de anomalias, um tipo de modelagem não supervisionada, e por aprendizado baseado em distância, onde crenças sobre o que constitui similaridade entre dois exemplos podem substituir rótulos e ajudar você a alcançar níveis de acurácia comparáveis a um workflow supervisionado. Ao concluir este capítulo, você vai se destacar por saber, com segurança, quais ferramentas usar para adaptar seu workflow e superar desafios comuns do mundo real.

Exercise 1: Detecção de anomalias Exercise 2: Um outlier simples Exercise 3: Contaminação no LoF Exercise 4: Detecção de novidades Exercise 5: Uma novidade simples Exercise 6: Três detectores de novidade Exercise 7: Contaminação revisitada Exercise 8: Aprendizado baseado em distância Exercise 9: Encontre o vizinho Exercise 10: Nem todas as métricas concordam Exercise 11: Dados não estruturados Exercise 12: Levenshtein restrito Exercise 13: Juntando tudo Exercise 14: Considerações finais