ComenzarEmpieza gratis

Distribuciones de train/test

En una entrevista de Machine Learning, casi seguro trabajarás con datos de entrenamiento y de prueba. Como vimos antes, el rendimiento del modelo puede empeorar si las distribuciones de los conjuntos de entrenamiento y prueba difieren.

En este ejercicio, usarás funciones de sklearn.model_selection, además de seaborn y matplotlib.pyplot, para dividir loan_data en un conjunto de entrenamiento y otro de prueba, y visualizar sus distribuciones para detectar posibles discrepancias.

Ten en cuenta que seaborn y matplotlib.pyplot ya se han importado en tu espacio de trabajo con los alias sns y plt, respectivamente.

La canalización ahora incluye Train/Test split:

Machine learning pipeline

Este ejercicio forma parte del curso

Practicing Machine Learning Interview Questions in Python

Ver curso

Instrucciones del ejercicio

  • Filtra loan_data para quedarte solo con las características Credit Score y Annual Income, y la variable objetivo Loan Status en ese orden.
  • Crea una división 80/20 de loan_data y asígnala a loan_data_subset.
  • Crea pairplots de trainingSet y testSet (en ese orden) estableciendo el argumento hue en la variable objetivo Loan Status.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create `loan_data` subset: loan_data_subset
loan_data_subset = ____[['____','____','____']]

# Create train and test sets
trainingSet, testSet = ____(____, ____=___, random_state=123)

# Examine pairplots
plt.figure()
sns.____(____, hue='____', palette='RdBu')
plt.show()

plt.figure()
sns.____(____, hue='____', palette='RdBu')
plt.show()
Editar y ejecutar código