Separa colonne numeriche e categoriche
Nell'ultimo esercizio hai esplorato le caratteristiche dell'insieme di dati e ora sei prontə per un po' di pre-processing. Separerai le variabili categoriche e numeriche dal DataFrame telco_raw usando una soglia personalizzata sul conteggio dei valori unici per distinguere categoriche vs. numeriche. Il modulo pandas è già stato caricato come pd.
L'insieme di dati grezzo sul churn telecom telco_raw è stato caricato come DataFrame di pandas. Puoi prenderci familiarità esplorandolo nella console.
Questo esercizio fa parte del corso
Machine Learning per il marketing con Python
Istruzioni dell'esercizio
- Memorizza i nomi delle colonne
customerIDeChurn. - Assegna a
categoricali nomi delle colonne che hanno meno di 5 valori unici. - Rimuovi
targetdalla lista. - Assegna a
numericaltutti i nomi delle colonne che non sono incustid,targetecategorical.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Store customerID and Churn column names
custid = ['___']
target = ['___']
# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()
# Remove target from the list of categorical variables
categorical.remove(___[0])
# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]