La tua prima pipeline

Una tua collega ha usato AdaBoostClassifier per l’insieme di dati di credit scoring. Vuoi provare anche un classificatore random forest. In questo esercizio, adatterai questo classificatore ai dati e lo confronterai con AdaBoostClassifier. Assicurati di usare uno split train/test per evitare overfitting. I dati sono già caricati e trasformati in modo che tutte le feature siano numeriche. Le feature sono disponibili come X e le etichette come y. Anche il modulo RandomForestClassifier è già caricato.

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Split the data into train and test, with 20% as test
X_train, ____, ____, y_test = train_test_split(
  X, y, ____=0.2, random_state=1)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Progettare workflow di Machine Learning in Python

AvançadoNível de habilidade

4.8+

94 reviews

Inizia il corso gratuitamente

In questo capitolo ripasserai le basi di un workflow di apprendimento supervisionato, con fitting, tuning e selezione del modello, feature engineering e selezione delle feature, e tecniche di suddivisione dei dati. Capirai come questi passaggi del workflow dipendono l’uno dall’altro e riconoscerai come possano tutti contribuire o contrastare l’overfitting: il peggior nemico del data scientist. Al termine del capitolo, sarai già a tuo agio con il supervised learning e pronto ad affrontare contenuti più avanzati nei capitoli successivi.

Exercise 1: Pipeline per il supervised learning Exercise 2: Feature engineering Exercise 3: La tua prima pipeline

Esercizio attuale

Exercise 4: Complessità del modello e overfitting Exercise 5: Grid search CV per la complessità del modello Exercise 6: Numero di alberi ed estimator Exercise 7: Feature engineering e overfitting Exercise 8: Codifiche categoriche Exercise 9: Trasformazioni delle feature Exercise 10: Mettiamo tutto insieme

Nel capitolo precedente hai perfezionato la tua conoscenza dei workflow standard di apprendimento supervisionato. In questo capitolo esaminerai in modo critico i modi in cui la conoscenza degli esperti viene incorporata nel supervised learning. Questo avviene attraverso l’identificazione della corretta unità di analisi, che può richiedere feature engineering su più fonti di dati, attraverso il talvolta imperfetto processo di etichettatura degli esempi e tramite la definizione di una funzione di perdita che catturi il reale valore di business degli errori commessi dal tuo modello di Machine Learning.

Exercise 1: Fusione dei dati Exercise 2: È la sorgente o la destinazione a essere compromessa?Exercise 3: Feature engineering su dati raggruppati Exercise 4: Etichette imperfette Exercise 5: Trasformare un'euristica in un classificatore Exercise 6: Combinare euristiche Exercise 7: Gestire il rumore nelle etichette Exercise 8: Funzioni di perdita Parte I Exercise 9: Ripasso delle metriche di prestazione Exercise 10: Analisi dei costi nel mondo reale Exercise 11: Calcoli con la matrice di confusione Exercise 12: Funzioni di perdita Parte II Exercise 13: Soglia predefinita Exercise 14: Ottimizzare la soglia Exercise 15: Mettere tutto insieme

Nel capitolo precedente hai adottato diversi modi per integrare il feedback degli esperti nel tuo workflow e per valutarlo in modo allineato al valore di business. Ora è il momento di mettere in pratica le competenze necessarie per portare il tuo modello in produzione e assicurarti che continui a funzionare bene nel tempo migliorandolo in modo iterativo. Imparerai anche a diagnosticare il dataset shift e a mitigare l’effetto che un ambiente in cambiamento può avere sull’accuratezza del tuo modello.

Exercise 1: Dai workflow alle pipeline Exercise 2: La tua prima pipeline - di nuovo!Exercise 3: Scorer personalizzati nelle pipeline Exercise 4: Deployment del modello Exercise 5: Pickle Exercise 6: Transformer personalizzati basati su funzioni nelle pipeline Exercise 7: Iterare senza overfitting Exercise 8: Sfida il campione Exercise 9: Statistiche della cross-validation Exercise 10: Dataset shift Exercise 11: Ottimizzare la dimensione della finestra Exercise 12: Mettiamo tutto insieme

Nei capitoli precedenti hai costruito solide basi nel supervised learning, inclusa la messa in produzione dei modelli, ma hai sempre dato per scontato di avere a disposizione un insieme di dati etichettato per l’analisi. In questo capitolo affronterai la sfida di modellare dati senza etichette o con pochissime etichette. Questo ti porta in un percorso nell’anomaly detection, una forma di modellazione non supervisionata, e nel distance-based learning, dove convinzioni su cosa renda simili due esempi possono sostituire le etichette per aiutarti a raggiungere livelli di accuratezza paragonabili a un workflow supervisionato. Al termine del capitolo, ti distinguerai chiaramente dalla massa dei data scientist grazie alla sicurezza con cui saprai scegliere gli strumenti giusti per adattare il tuo workflow e superare sfide comuni del mondo reale.

Exercise 1: Rilevamento di anomalie Exercise 2: Un semplice outlier Exercise 3: Contaminazione in LoF Exercise 4: Rilevamento di novità Exercise 5: Una semplice novelty Exercise 6: Tre rilevatori di novità Exercise 7: Contamination, di nuovo Exercise 8: Apprendimento basato sulla distanza Exercise 9: Trova il vicino Exercise 10: Non tutte le metriche sono d'accordo Exercise 11: Dati non strutturati Exercise 12: Levenshtein ristretto Exercise 13: Mettere tutto insieme Exercise 14: Considerazioni finali