1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Předpovídání CTR pomocí Machine Learning v Pythonu

Connected

cvičení

Logistická regrese pro rakovinu prsu

V předchozím cvičení jsme provedli první průzkum dat. V tomto cvičení definuješ trénovací a testovací rozdělení pro model logistické regrese na datasetu rakoviny prsu. Jde o důležitý první krok při práci s jakýmkoli modelem strojového učení.

Dataset rakoviny prsu je ukázkový dataset z knihovny sklearn obsahující různé příznaky pacientů a cílovou hodnotu udávající, zda daný pacient rakovinu prsu má, nebo nemá. Data jsou ve formátu slovníku, kde hlavní data jsou uložena v poli data a cílové hodnoty v poli target. Příznaky tedy najdeš v cancer_data.data a cílové hodnoty v cancer_data.target. Ukázková data jsou načtena jako cancer_data, k dispozici je také pandas jako pd. LogisticRegression je dostupná přes sklearn.linear_model.

Pokyny

100 XP
  • Definuj X a y pomocí data a target.
  • Přiřaď do X_train a y_train prvních 300 vzorků z X a y – pro X_train použij X[:300].
  • Přiřaď do X_test a y_test zbývající vzorky z X a y (tedy vše po prvních 300) – pro X_test použij X[300:].