Regressione logistica per il tumore al seno

Nell'ultimo esercizio abbiamo fatto una prima valutazione dei dati. In questo esercizio definirai una suddivisione in training e test per un modello di regressione logistica su un insieme di dati sul tumore al seno. Questo è un primo passo importante per eseguire qualsiasi modello di Machine Learning.

Il dataset sul tumore al seno è un dataset di esempio di sklearn con diverse caratteristiche dei pazienti e un valore target che indica se il paziente ha o meno un tumore al seno. I dati sono forniti in formato dizionario: i dati principali sono in un array chiamato data, e i valori target in un array chiamato target. Quindi, cancer_data.data contiene le feature e cancer_data.target i target. I dati di esempio sono caricati come cancer_data insieme a pandas come pd. LogisticRegression è disponibile tramite sklearn.linear_model.

Questo esercizio fa parte del corso

Prevedere il CTR con il Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Definisci X e y usando rispettivamente data e target.
Imposta X_train e y_train come i primi 300 campioni di X e y, rispettivamente, usando X[:300] per X_train.
Imposta X_test e y_test come i rimanenti elementi di X e y (escludendo i primi 300 campioni), usando X[300:] per X_test.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Prevedere il CTR con il Machine Learning in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Con tutta probabilità sei su questa pagina perché hai cliccato un link. In questo capitolo scoprirai perché i click-through rate (CTR) sono fondamentali per la pubblicità mirata, come eseguire semplici manipolazioni di DataFrame e come usare modelli di Machine Learning per prevedere il CTR.

Exercise 1: Introduzione ai click-through rate Exercise 2: Primi passi Exercise 3: Esplorazione delle feature Exercise 4: Prima valutazione dei dati Exercise 5: Panoramica dei modelli di Machine Learning Exercise 6: Regressione logistica per il tumore al seno

Esercizio attuale

Exercise 7: Regressione logistica per immagini Exercise 8: Un secondo modello di prova Exercise 9: Previsione del CTR con alberi decisionali Exercise 10: Implementazione del modello Exercise 11: Un primo modello di CTR Exercise 12: Oltre la sola accuratezza

Questo capitolo fornisce le basi per l’analisi esplorativa dei dati (EDA). Con dati di esempio userai la libreria pandas per esaminare colonne e tipi di dato, esplorare i valori mancanti e utilizzare l’hashing per fare feature engineering su variabili categoriche. Tutto ciò è importante quando si analizzano le feature per prevedere il CTR in modo più accurato.

Exercise 1: Analisi esplorativa dei dati Exercise 2: Un primo sguardo Exercise 3: Verificare i valori mancanti Exercise 4: Distribuzioni per CTR Exercise 5: Feature engineering Exercise 6: Analizzare le colonne datetime Exercise 7: Conversione delle variabili categoriche Exercise 8: Creare nuove feature Exercise 9: Standardizzare le feature Exercise 10: Normalizzazione logaritmica Exercise 11: Capire la standardizzazione Exercise 12: Standard scaling

È il momento di andare più a fondo. Scoprirai come usare misure di performance del modello, tra cui precision e recall, per rispondere a domande reali, come valutare l’ROI della spesa pubblicitaria. Imparerai anche come migliorare queste metriche di valutazione, ad esempio con metodi ensemble e la regolazione degli iperparametri.

Exercise 1: Applicazioni della valutazione delle metriche Exercise 2: Quattro categorie di esiti Exercise 3: Valutare quattro categorie Exercise 4: ROI sulla spesa pubblicitaria Exercise 5: Valutazione del modello Exercise 6: Precision e recall Exercise 7: Baseline Exercise 8: Confronto tra classificatori Exercise 9: Ottimizzazione dei modelli Exercise 10: Regolarizzazione Exercise 11: Cross validation Exercise 12: Selezione del modello Exercise 13: Ensemble e ottimizzazione degli iperparametri Exercise 14: Capire l’hyperparameter tuning Exercise 15: Random forest Exercise 16: Grid search

I profitti possono essere fortemente influenzati dal CTR della tua campagna. In questo capitolo imparerai come il deep learning può aiutare a ridurre quel rischio. Ti concentrerai su multilayer perceptron (MLP) e modelli di rete neurale, e vedrai come possano catturare relazioni complesse tra variabili per prevedere il CTR con maggiore precisione. Infine, esplorerai come applicare le basi dell’hyperparameter tuning e della regolarizzazione ai modelli di classificazione.

Exercise 1: Introduzione al deep learning Exercise 2: Capire gli MLP Exercise 3: Modello iniziale Exercise 4: MLP per il CTR Exercise 5: Ottimizzazione degli iperparametri nel deep learning Exercise 6: Ottimizzazione degli iperparametri negli MLP Exercise 7: Variare gli iperparametri Exercise 8: Grid search per MLP Exercise 9: Valutazione del modello Exercise 10: Punteggio F-beta Exercise 11: Bassa precision e AUC alta Exercise 12: Precision, ROI e AUC Exercise 13: Revisione e confronto dei modelli Exercise 14: Riscaldamento al confronto tra modelli Exercise 15: Valutare precision e ROI Exercise 16: Valutazione completa Exercise 17: Video di riepilogo