1. Nauka
  2. /
  3. Kursy
  4. /
  5. Ćwiczenie pytań rekrutacyjnych z uczenia maszynowego w Pythonie

Connected

ćwiczenie

Rozkłady danych treningowych i testowych

Na rozmowie rekrutacyjnej dotyczącej uczenia maszynowego niemal na pewno będziesz pracować z danymi treningowymi i testowymi. Jak wspominaliśmy wcześniej, jeśli rozkłady tych zbiorów się różnią, model może działać słabiej niż oczekujemy.

W tym ćwiczeniu użyjesz funkcji z biblioteki sklearn.model_selection oraz bibliotek seaborn i matplotlib.pyplot, aby podzielić zbiór loan_data na zbiór treningowy i testowy, a następnie zwizualizować ich rozkłady i sprawdzić ewentualne rozbieżności.

Zauważ, że biblioteki seaborn i matplotlib.pyplot zostały już zaimportowane do środowiska pracy i mają aliasy odpowiednio sns i plt.

Potok przetwarzania danych zawiera teraz krok Train/Test split:

Machine learning pipeline

Instrukcje

100 XP
  • Ogranicz zbiór loan_data do cech Credit Score i Annual Income oraz zmiennej docelowej Loan Status – dokładnie w tej kolejności.
  • Podziel zbiór loan_data w proporcji 80/20 i przypisz wynik do zmiennej loan_data_subset.
  • Utwórz pairploty dla zbiorów trainingSet i testSet (w tej kolejności), ustawiając argument hue na zmienną docelową Loan Status.