Ajustar el tamaño de la ventana

Quieres comprobar por ti mismo que el tamaño de ventana óptimo para el conjunto de datos de arritmia es 50. Se te ha proporcionado el conjunto como un data frame de pandas llamado arrh, y quieres usar un subconjunto de los datos hasta el tiempo t_now. Tus datos de prueba están disponibles como X_test, y_test. Probarás varios tamaños de ventana, del 10 al 100, ajustarás un clasificador de naive Bayes a cada ventana, evaluarás su F1 score en los datos de prueba y, después, elegirás el tamaño de ventana con mejor rendimiento. También tienes numpy disponible como np, y la función f1_score() ya se ha importado. Por último, se ha inicializado para ti una lista vacía llamada accuracies para que almacenes las accuracies de las ventanas.

Este ejercicio forma parte del curso

Diseño de flujos de trabajo de Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Define el índice de una ventana deslizante de tamaño w_size que termine en t_now usando el método .loc().
Construye X a partir de la ventana deslizante eliminando la columna class. Guarda esa última columna como y.
Ajusta un clasificador de naive Bayes con X y y, y úsalo para predecir las etiquetas de los datos de prueba X_test.
Calcula el F1 score de estas predicciones para cada tamaño de ventana y encuentra el tamaño de ventana con mejor rendimiento.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Loop over window sizes
for w_size in wrange:

    # Define sliding window
    sliding = arrh.____[____:t_now]

    # Extract X and y from the sliding window
    X, y = sliding.____('class', ____), sliding[____]
    
    # Fit the classifier and store the F1 score
    preds = GaussianNB().fit(____, ____).____(X_test)
    accuracies.append(____(____, ____))

# Estimate the best performing window size
optimal_window = ____[np.____(accuracies)]

Editar y ejecutar código

Diseño de flujos de trabajo de Machine Learning en Python

AvanzadoNivel de habilidad

4.8+

94 reviews

In the previous chapters you established a solid foundation in supervised learning, complete with knowledge of deploying models in production but always assumed you a labeled dataset would be available for your analysis. In this chapter, you take on the challenge of modeling data without any, or with very few, labels. This takes you into a journey into anomaly detection, a kind of unsupervised modeling, as well as distance-based learning, where beliefs about what constitutes similarity between two examples can be used in place of labels to help you achieve levels of accuracy comparable to a supervised workflow. Upon completing this chapter, you will clearly stand out from the crowd of data scientists in confidently knowing what tools to use to modify your workflow in order to overcome common real-world challenges.

Exercise 1: Anomaly detection Exercise 2: A simple outlier Exercise 3: LoF contamination Exercise 4: Novelty detection Exercise 5: A simple novelty Exercise 6: Three novelty detectors Exercise 7: Contamination revisited Exercise 8: Distance-based learning Exercise 9: Find the neighbor Exercise 10: Not all metrics agree Exercise 11: Unstructured data Exercise 12: Restricted Levenshtein Exercise 13: Bringing it all together Exercise 14: Concluding remarks