Separa columnas numéricas y categóricas
En el último ejercicio, exploraste las características del conjunto de datos y ya estás listo para hacer algo de preprocesamiento. Ahora vas a separar las variables categóricas y numéricas del DataFrame telco_raw con un umbral personalizado de conteo de valores únicos para distinguir entre categóricas y numéricas. El módulo pandas se ha cargado como pd.
El conjunto de datos bruto de churn de telecomunicaciones telco_raw se ha cargado como un DataFrame de pandas. Puedes familiarizarte con él explorándolo en la consola.
Este ejercicio forma parte del curso
Machine Learning para marketing en Python
Instrucciones del ejercicio
- Guarda los nombres de las columnas
customerIDyChurn. - Asigna a
categoricallos nombres de columnas que tengan menos de 5 valores únicos. - Elimina
targetde la lista. - Asigna a
numericaltodos los nombres de columnas que no estén encustid,targetycategorical.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Store customerID and Churn column names
custid = ['___']
target = ['___']
# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()
# Remove target from the list of categorical variables
categorical.remove(___[0])
# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]