1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modelowanie ryzyka kredytowego w Pythonie

Connected

ćwiczenie

Kodowanie one-hot danych kredytowych

Czas przygotować kolumny nienumeryczne, aby można je było dodać do modelu LogisticRegression().

Po utworzeniu nowych kolumn metodą one-hot encoding możesz połączyć je z kolumnami numerycznymi i stworzyć nową ramkę danych, która będzie używana w pozostałej części kursu do przewidywania prawdopodobieństwa niewywiązania się ze zobowiązań.

Pamiętaj, żeby kodowaniem one-hot objąć wyłącznie kolumny nienumeryczne. Zastosowanie go do kolumn numerycznych dałoby w efekcie niezwykle szeroki zbiór danych!

Dane kredytowe cr_loan_clean zostały już wczytane do środowiska pracy.

Instrukcje

100 XP
  • Utwórz zbiór danych zawierający wszystkie kolumny numeryczne i nazwij go cred_num, a zbiór z kolumnami nienumerycznymi nazwij cred_str.
  • Zastosuj kodowanie one-hot na cred_str, aby utworzyć nowy zbiór danych o nazwie cred_str_onehot.
  • Połącz cred_num z nowo zakodowanymi danymi one-hot i zapisz wynik jako cr_loan_prep.
  • Wyświetl kolumny nowego zbioru danych.