Logistische regressie voor borstkanker

In de vorige oefening hebben we een eerste verkenning van de data gedaan. In deze oefening definieer je een train-test-splitsing voor een logistiek regressiemodel op een borstkanker-gegevensset. Dit is een belangrijke eerste stap bij het draaien van alle Machine Learning-modellen.

De borstkanker-gegevensset is een voorbeeldgegevensset uit sklearn met verschillende kenmerken van patiënten en een doelvariabele die aangeeft of de patiënt wel of geen borstkanker heeft. De data komt in een dictionary-formaat, waarbij de hoofddata is opgeslagen in een array data en de doelwaarden in een array target. Dus cancer_data.data bevat de features en cancer_data.target de targets. De voorbeelddata is geladen als cancer_data, en pandas is geïmporteerd als pd. LogisticRegression is beschikbaar via sklearn.linear_model.

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

Oefeninstructies

Definieer X en y met respectievelijk data en target.
Maak X_train en y_train de eerste 300 samples van respectievelijk X en y, met X[:300] voor X_train.
Maak X_test en y_test de rest van respectievelijk X en y (dus exclusief de eerste 300 samples), met X[300:] voor X_test.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

CTR voorspellen met Machine Learning in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

De kans is groot dat je op deze pagina bent omdat je op een link hebt geklikt. In dit hoofdstuk leer je waarom click-through rates (CTR) essentieel zijn voor gerichte advertenties, hoe je basisbewerkingen op DataFrames uitvoert en hoe je machine learning-modellen kunt gebruiken om CTR te voorspellen.

Exercise 1: Introductie tot click-through rates Exercise 2: Eerste stappen Exercise 3: Verkenning van features Exercise 4: Eerste evaluatie van de data Exercise 5: Overzicht van machine learning-modellen Exercise 6: Logistische regressie voor borstkanker

Huidige oefening

Exercise 7: Logistische regressie voor afbeeldingen Exercise 8: Een tweede speelgoedmodel Exercise 9: CTR-voorspelling met beslissingsbomen Exercise 10: Modelimplementatie Exercise 11: Een eerste CTR-model Exercise 12: Verder kijken dan alleen accuracy

Dit hoofdstuk legt de basis voor exploratieve data-analyse (EDA). Met voorbeelddata gebruik je de pandas-bibliotheek om naar kolommen en datatypen te kijken, missende waarden te verkennen en hashing te gebruiken om feature engineering uit te voeren op categorische features. Dit alles is belangrijk bij het verkennen van features voor nauwkeurigere CTR-voorspelling.

Exercise 1: Exploratieve data-analyse Exercise 2: Een eerste blik Exercise 3: Controleren op ontbrekende waarden Exercise 4: Verdelingen per CTR Exercise 5: Feature engineering Exercise 6: Datum-tijdkolommen analyseren Exercise 7: Categorische variabelen omzetten Exercise 8: Nieuwe features maken Exercise 9: Features standaardiseren Exercise 10: Log-normalisatie Exercise 11: Standaardisatie begrijpen Exercise 12: Standaardschaling

Tijd om de diepte in te gaan. Ontdek hoe je maatstaven voor modelprestaties, zoals precision en recall, kunt gebruiken om praktijkvragen te beantwoorden, zoals het evalueren van de ROI op advertentie-uitgaven. Je leert ook manieren om die evaluatiemetrics te verbeteren, zoals ensemblemethoden en hyperparametertuning.

Exercise 1: Toepassingen van metriekevaluatie Exercise 2: Vier categorieën uitkomsten Exercise 3: Vier categorieën evalueren Exercise 4: ROI op advertentiebesteding Exercise 5: Modelevaluatie Exercise 6: Precisie en recall Exercise 7: Baseline Exercise 8: Classificatiemodellen vergelijken Exercise 9: Modellen afstemmen Exercise 10: Regularisatie Exercise 11: Cross-validation Exercise 12: Modelselectie Exercise 13: Ensembles en hyperparametertuning Exercise 14: Begrijpen van hyperparameter tuning Exercise 15: Random forests Exercise 16: Grid search

Je campagne-CTR kan de winst sterk beïnvloeden. In dit hoofdstuk leer je hoe deep learning dat risico kan verkleinen. Je richt je op multi-layer perceptron (MLP) en neurale netwerkmodellen, en leert hoe je hiermee de complexe relatie tussen variabelen vastlegt om CTR nauwkeuriger te voorspellen. Tot slot verken je hoe je de basis van hyperparametertuning en regularisatie toepast op classificatiemodellen.

Exercise 1: Introductie tot deep learning Exercise 2: MLP's begrijpen Exercise 3: Startmodel Exercise 4: MLP's voor CTR Exercise 5: Hyperparametertuning in deep learning Exercise 6: Hyperparametertuning in MLP's Exercise 7: Variëren van hyperparameters Exercise 8: MLP Grid Search Exercise 9: Modelbeoordeling Exercise 10: F-beta-score Exercise 11: Lage precision en hoge AUC Exercise 12: Precision, ROI en AUC Exercise 13: Modelbeoordeling en -vergelijking Exercise 14: Voorbereiding modelvergelijking Exercise 15: Precisie en ROI evalueren Exercise 16: Totale score Exercise 17: Afsluitende video