Transformer personalizzati basati su funzioni nelle pipeline

A un certo punto ti è stato detto che i sensori potrebbero funzionare peggio per le persone obese. In passato avevi gestito la cosa usando dei pesi, ma ora pensi che questa informazione possa essere utile anche per il feature engineering, quindi decidi di sostituire il peso registrato di un individuo con un indicatore che segnali se è obeso. Vuoi farlo usando le pipeline. Hai numpy disponibile come np, RandomForestClassifier(), FunctionTransformer() e GridSearchCV().

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Definisci un estrattore di feature personalizzato: una funzione che restituisca una copia modificata del suo input.
Sostituisci ciascun valore della prima colonna con un indicatore che valga 1 se il valore supera una soglia data da un multiplo della media della colonna, altrimenti 0.
Converti l’estrattore di feature in un transformer e inseriscilo in una pipeline insieme a un classificatore Random Forest.
Usa una grid search con CV per provare i valori 1, 2 e 3 per la costante di moltiplicazione multiplier nel tuo estrattore di feature.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Define a feature extractor to flag very large values
def more_than_average(X, multiplier=1.0):
  Z = ____
  Z[:,1] = ____ > multiplier*np.mean(Z[:,1])
  return Z

# Convert your function so that it can be used in a pipeline
pipe = Pipeline([
  ('ft', ____(____)),
  ('clf', RandomForestClassifier(random_state=2))])

# Optimize the parameter multiplier using GridSearchCV
params = ____
grid_search = GridSearchCV(pipe, param_grid=params)

Modifica ed esegui il codice

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali