Distribuțiile seturilor de antrenament și testare

Într-un interviu de machine learning, vei lucra cu siguranță cu date de antrenament și date de testare. Așa cum am discutat anterior, performanța slabă a modelului poate apărea atunci când distribuțiile seturilor de antrenament și testare diferă.

În acest exercițiu, vei folosi funcții din sklearn.model_selection, seaborn și matplotlib.pyplot pentru a împărți loan_data într-un set de antrenament și un set de testare, și pentru a vizualiza distribuțiile lor și a identifica eventuale discrepanțe.

Reține că seaborn și matplotlib.pyplot au fost deja importate în spațiul tău de lucru și aliasate ca sns, respectiv plt.

Pipeline-ul include acum pasul Train/Test split:

Machine learning pipeline

Selectează din loan_data doar caracteristicile Credit Score și Annual Income, și variabila țintă Loan Status în această ordine.
Creează o împărțire 80/20 a lui loan_data și atribuie rezultatul variabilei loan_data_subset.
Creează pairplot-uri pentru trainingSet și testSet (în această ordine), setând argumentul hue la variabila țintă Loan Status.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu