1. Learn
  2. /
  3. Courses
  4. /
  5. Procvičování otázek k pohovorům z oblasti Machine Learning v Pythonu

Connected

Exercise

Rozdělení dat na trénovací a testovací sadu

Na pohovoru v oblasti Machine Learning se téměř jistě setkáš s trénovacími a testovacími daty. Jak jsme si zmínili dříve, pokud se jejich rozdělení liší, může to vést ke slabému výkonu modelu.

V tomto cvičení použiješ funkce z sklearn.model_selection spolu se seaborn a matplotlib.pyplot, abys rozdělil/a loan_data na trénovací a testovací sadu a vizualizoval/a jejich rozdělení — a mohl/a tak odhalit případné nesrovnalosti.

Všimni si, že seaborn a matplotlib.pyplot jsou do tvého pracovního prostředí již naimportované s aliasy sns, resp. plt.

Pipeline teď zahrnuje krok Train/Test split:

Machine learning pipeline

Instructions

100 XP
  • Z loan_data vyber pouze příznaky Credit Score a Annual Income a cílovou proměnnou Loan Status — přesně v tomto pořadí.
  • Rozděl loan_data v poměru 80/20 a výsledek přiřaď do loan_data_subset.
  • Vytvoř pairploty pro trainingSet a testSet (v tomto pořadí) a nastav argument hue na cílovou proměnnou Loan Status.