Preprocess

È il momento del feature engineering! Devi costruire una ricetta per gestire variabili non informative ma potenzialmente utili, come l’ID dell’osservazione, o per trattare i valori mancanti. È anche l’occasione per trasformare alcuni predittori: ad esempio, normalizzare le feature numeriche e creare variabili dummy per quelle categoriche.

Il dataset attrition e le suddivisioni train e test che hai creato nell’esercizio precedente sono disponibili nel tuo ambiente.

Questo esercizio fa parte del corso

Feature Engineering in R

Visualizza corso

Istruzioni dell'esercizio

Normalizza tutte le feature numeriche.
Imputa i valori mancanti usando l’algoritmo di imputazione knn.
Crea variabili dummy per tutti i predittori nominali.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

recipe <- recipe(Attrition ~ ., data = train) %>%
  update_role(...1, new_role = "ID") %>%

# Normalize all numeric features
  ___(all_numeric_predictors()) %>% 

# Impute missing values using the knn imputation algorithm
  ___(all_predictors()) %>%

# Create dummy variables for all nominal predictors
  ___(all_nominal_predictors())
 
recipe

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Feature Engineering in R

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

I dati grezzi non sono sempre nella forma migliore per l’analisi. In questo capitolo introduttivo, darai una prima occhiata a come trasformare e creare caratteristiche che migliorano le prestazioni e l’interpretabilità del tuo modello.

Exercise 1: Che cos’è il feature engineering?Exercise 2: Un modello provvisorio Exercise 3: Creare manualmente una feature Exercise 4: Creare nuove feature usando la conoscenza del dominio Exercise 5: Prepara i tuoi dati per l'analisi Exercise 6: Creare un workflow Exercise 7: Aumentare il contenuto informativo dei dati grezzi Exercise 8: Identificare i valori mancanti Exercise 9: Imputazione dei valori mancanti e creazione di variabili dummy Exercise 10: Addestrare e valutare il modello Exercise 11: Prevedere le prenotazioni in hotel

In questo capitolo vedrai che, oltre a trasformare manualmente le caratteristiche, puoi sfruttare gli strumenti del tidyverse per generare nuove variabili in modo programmatico. Scoprirai come questo approccio migliori la riproducibilità dei modelli ed è particolarmente utile quando si lavora con insiemi di dati con molte caratteristiche.

Exercise 1: Perché trasformare le feature esistenti?Exercise 2: Dare un'occhiata ai tuoi dati Exercise 3: Normalizzazione e trasformazione logaritmica Exercise 4: Fit e augment Exercise 5: Personalizza la valutazione del tuo modello Exercise 6: Trasformazioni comuni delle caratteristiche Exercise 7: Trasformazioni comuni Exercise 8: Ricetta semplice Exercise 9: Trasformazione Box-Cox Exercise 10: Trasformazione Yeo-Johnson Exercise 11: Trasformazioni avanzate Exercise 12: Baseline Exercise 13: step_poly()Exercise 14: step_percentile()Exercise 15: Chi resta?

Ora vedrai come i modelli traggono spesso beneficio dalla riduzione della dimensionalità e dall’estrazione di caratteristiche da dati ad alta dimensionalità, inclusa la conversione di testo in valori numerici, la codifica di dati categorici e il ranking del potere predittivo delle variabili. Esplorerai metodi come l’analisi delle componenti principali, la kernel principal component analysis, l’estrazione numerica dal testo, le codifiche categoriche e i punteggi di importanza delle variabili.

Exercise 1: Ridurre la dimensionalità Exercise 2: Preparare il terreno Exercise 3: Esplorare la struttura Exercise 4: Percentuale di varianza spiegata Exercise 5: Visualizzare la varianza spiegata Exercise 6: Feature hashing Exercise 7: Esplorare il campo Education Exercise 8: Dentro la matrice Exercise 9: Esplorare l'hashing Exercise 10: Visualizzare l'hashing Exercise 11: Codificare i dati categorici usando l'apprendimento supervisionato Exercise 12: Impostare il tuo workflow Exercise 13: Adattare, aumentare e valutare Exercise 14: Unire i modelli Exercise 15: Importanza delle variabili Exercise 16: Crea un workflow Exercise 17: Adatta e amplia Exercise 18: Qual è il principale predittore?

Concluderai il corso approfondendo tecniche di feature engineering e di Machine Learning. Inizierai concentrandoti sui problemi legati all’uso di tutte le caratteristiche disponibili in un modello e sull’importanza di individuare quelle irrilevanti e ridondanti, imparando a rimuoverle con metodi embedded come lasso ed elastic-net. Poi esplorerai i metodi di shrinkage come lasso, ridge ed elastic-net, che possono essere usati per regolarizzare i pesi delle caratteristiche o selezionarle azzerando alcuni coefficienti. Infine, terminerai creando un flusso di lavoro end-to-end per il feature engineering e ripassando e mettendo in pratica i concetti e le funzioni appresi in un piccolo progetto.

Exercise 1: Ridurre le feature del modello Exercise 2: Setacciare l'importanza delle variabili Exercise 3: Valutare le prestazioni del modello usando tutti i predittori disponibili Exercise 4: Creare un modello ridotto Exercise 5: Metodi di shrinkage Exercise 6: Regolarizzazione manuale con Lasso Exercise 7: Ottimizzare la penalty Exercise 8: Finalizzazione del modello Exercise 9: Mettere tutto insieme Exercise 10: Prepara e dividi Exercise 11: Preprocess

Esercizio attuale

Exercise 12: Modello Exercise 13: Valuta Exercise 14: Congratulazioni!