Rozkłady danych treningowych i testowych

Na rozmowie rekrutacyjnej dotyczącej uczenia maszynowego niemal na pewno będziesz pracować z danymi treningowymi i testowymi. Jak wspominaliśmy wcześniej, jeśli rozkłady tych zbiorów się różnią, model może działać słabiej niż oczekujemy.

W tym ćwiczeniu użyjesz funkcji z biblioteki sklearn.model_selection oraz bibliotek seaborn i matplotlib.pyplot, aby podzielić zbiór loan_data na zbiór treningowy i testowy, a następnie zwizualizować ich rozkłady i sprawdzić ewentualne rozbieżności.

Zauważ, że biblioteki seaborn i matplotlib.pyplot zostały już zaimportowane do środowiska pracy i mają aliasy odpowiednio sns i plt.

Potok przetwarzania danych zawiera teraz krok Train/Test split:

Machine learning pipeline

Ogranicz zbiór loan_data do cech Credit Score i Annual Income oraz zmiennej docelowej Loan Status – dokładnie w tej kolejności.
Podziel zbiór loan_data w proporcji 80/20 i przypisz wynik do zmiennej loan_data_subset.
Utwórz pairploty dla zbiorów trainingSet i testSet (w tej kolejności), ustawiając argument hue na zmienną docelową Loan Status.

ćwiczenie

Rozkłady danych treningowych i testowych

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie