Trasformazioni delle feature

Stai discutendo del dataset di credito con la direttrice della banca. Ti suggerisce che le richieste di prestito più sicure tendono a richiedere importi medi. Valori troppo bassi o troppo alti indicano rischio elevato. Questo significa che potrebbe esistere una relazione non lineare tra questa variabile e la classe. Vuoi testare questa ipotesi. Costruirai una trasformazione non lineare della feature. Poi valuterai quale delle due feature predice meglio la classe usando SelectKBest() e la metrica chi2(), entrambi già precaricati.

I dati sono disponibili come pandas DataFrame chiamato credit, con la classe nella colonna class. Hai anche precaricato pandas come pd e numpy come np.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Definisci una funzione che trasformi un vettore numerico considerando la differenza assoluta di ciascun valore dalla media del vettore.
Applica questa trasformazione alla colonna credit_amount del dataset e salvala in una nuova colonna chiamata diff.
Crea un selettore di feature SelectKBest() per scegliere una tra le due colonne, credit_amount e diff, usando la metrica chi2().
Ispeziona i risultati.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Function computing absolute difference from column mean
def abs_diff(x):
    return ____(x-____)

# Apply it to the credit amount and store to new column
credit['diff'] = ____

# Create a feature selector with chi2 that picks one feature
sk = ____(chi2, ____)

# Use the selector to pick between credit_amount and diff
sk.fit(____, credit['class'])

# Inspect the results
sk.____()

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali