1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Zwycięstwo w konkursie Kaggle w Pythonie

Connected

Exercise

Walidacja krzyżowa k-fold

Będziesz pracować z problemem klasyfikacji binarnej na podzbiorze danych z zawodów Kaggle Playground. Celem tych zawodów jest przewidzenie, czy słynny koszykarz Kobe Bryant trafił do kosza, czy chybił przy danym rzucie.

Dane treningowe są dostępne w twoim środowisku jako ramka danych bryant_shots. Zawiera ona informacje o 10 000 rzutach wraz z ich właściwościami oraz zmienną docelową "shot\_made\_flag" -- określającą, czy rzut trafił do kosza.

Jedną z cech w zbiorze danych jest "game_id" -- identyfikator konkretnego meczu, podczas którego wykonano rzut. W zbiorze znajdują się 543 różne mecze, co oznacza, że masz do czynienia z cechą kategoryczną o wysokiej kardynalności. Zakodujmy ją za pomocą średniej docelowej!

Załóżmy, że stosujesz 5-krotną walidację krzyżową i chcesz ocenić cechę zakodowaną metodą średniej docelowej na lokalnym zbiorze walidacyjnym.

Instrukcje

100 XP
  • Aby to osiągnąć, należy przeprowadzić procedurę kodowania cechy kategorycznej "game_id" osobno dla każdego podziału na foldy. Twoim celem jest uzupełnienie wszystkich brakujących parametrów w wywołaniu funkcji mean_target_encoding() wewnątrz każdego podziału.
  • Pamiętaj, że parametry train i test przyjmują odpowiednio treningową i testową ramkę danych.
  • Natomiast parametry target i categorical przyjmują nazwy zmiennej docelowej oraz cechy kategorycznej, która ma zostać zakodowana.