1. Learn
  2. /
  3. Cursuri
  4. /
  5. Exersează întrebări de interviu pentru Machine Learning în Python

Connected

exercițiu

Distribuțiile seturilor de antrenament și testare

Într-un interviu de machine learning, vei lucra cu siguranță cu date de antrenament și date de testare. Așa cum am discutat anterior, performanța slabă a modelului poate apărea atunci când distribuțiile seturilor de antrenament și testare diferă.

În acest exercițiu, vei folosi funcții din sklearn.model_selection, seaborn și matplotlib.pyplot pentru a împărți loan_data într-un set de antrenament și un set de testare, și pentru a vizualiza distribuțiile lor și a identifica eventuale discrepanțe.

Reține că seaborn și matplotlib.pyplot au fost deja importate în spațiul tău de lucru și aliasate ca sns, respectiv plt.

Pipeline-ul include acum pasul Train/Test split:

Machine learning pipeline

Instrucțiuni

100 XP
  • Selectează din loan_data doar caracteristicile Credit Score și Annual Income, și variabila țintă Loan Status în această ordine.
  • Creează o împărțire 80/20 a lui loan_data și atribuie rezultatul variabilei loan_data_subset.
  • Creează pairplot-uri pentru trainingSet și testSet (în această ordine), setând argumentul hue la variabila țintă Loan Status.