Levenshtein ristretto

Noti che il pacchetto stringdist implementa anche una variante della distanza di Levenshtein chiamata distanza di Damerau-Levenshtein ristretta, e vuoi provarla. Seguirai la logica vista nella lezione, incapsulandola in una funzione personalizzata e precalcolando la matrice delle distanze prima di addestrare un rilevatore di anomalie Local Outlier Factor. Valuterai le prestazioni con accuracy_score(), disponibile come accuracy(). Hai anche accesso ai pacchetti stringdist, numpy come np, pdist() e squareform() da scipy.spatial.distance, e LocalOutlierFactor come lof. I dati sono stati precaricati come dataframe pandas con due colonne, label e sequence, e hanno due classi: IMMUNE SYSTEM e VIRUS.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Scrivi una funzione con input u e v, ciascuno dei quali è un array che contiene una stringa, e applica la funzione rdlevenshtein() alle due stringhe.
Rimodella la colonna sequence di proteins convertendola prima in un array numpy e poi usando .reshape().
Calcola una matrice di distanza quadrata per sequences usando my_rdlevenshtein() e addestra lof su di essa.
Calcola l'accuratezza convertendo preds e proteins['label'] in booleani che indicano se una proteina è un virus.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Wrap the RD-Levenshtein metric in a custom function
def my_rdlevenshtein(u, v):
    return ____.rdlevenshtein(____, ____)

# Reshape the array into a numpy matrix
sequences = ____(proteins['seq']).____(-1, 1)

# Compute the pairwise distance matrix in square form
M = ____

# Run a LoF algorithm on the precomputed distance matrix
preds = lof(metric=____).____(M)

# Compute the accuracy of the outlier predictions
print(accuracy(____, ____))

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto

Esercizio attuale

Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali