Rozdělení dat na trénovací a testovací sadu

Na pohovoru v oblasti Machine Learning se téměř jistě setkáš s trénovacími a testovacími daty. Jak jsme si zmínili dříve, pokud se jejich rozdělení liší, může to vést ke slabému výkonu modelu.

V tomto cvičení použiješ funkce z sklearn.model_selection spolu se seaborn a matplotlib.pyplot, abys rozdělil/a loan_data na trénovací a testovací sadu a vizualizoval/a jejich rozdělení — a mohl/a tak odhalit případné nesrovnalosti.

Všimni si, že seaborn a matplotlib.pyplot jsou do tvého pracovního prostředí již naimportované s aliasy sns, resp. plt.

Pipeline teď zahrnuje krok Train/Test split:

Machine learning pipeline

Z loan_data vyber pouze příznaky Credit Score a Annual Income a cílovou proměnnou Loan Status — přesně v tomto pořadí.
Rozděl loan_data v poměru 80/20 a výsledek přiřaď do loan_data_subset.
Vytvoř pairploty pro trainingSet a testSet (v tomto pořadí) a nastav argument hue na cílovou proměnnou Loan Status.

Exercise

Rozdělení dat na trénovací a testovací sadu

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise