IniziaInizia gratis

Evitare la multicollinearità

Torniamo al nostro insieme di dati delle vendite salesData, già caricato nell'area di lavoro. Inoltre, il pacchetto rms è caricato.

Stimiamo una regressione lineare multipla! Ovviamente vogliamo sfruttare tutte le variabili presenti nel dataset.

Questo esercizio fa parte del corso

Machine Learning per il Marketing Analytics in R

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola un modello completo chiamato salesModel1 usando tutte le variabili tranne id per spiegare le vendite di questo mese. Per farlo, inserisci i nomi corretti delle variabili nella seguente sintassi generica: response ~ . - excluded_variable. Si legge come "response modellata da tutte le variabili tranne excluded_variable."
  • Stima i variance inflation factor usando la funzione vif() del pacchetto rms.
  • Oltre a escludere la variabile id, rimuovi le variabili preferredBrand e nBrands per evitare multicollinearità. Lo fai aggiungendo ciascuna con -. Salva il modello in un oggetto chiamato salesModel2.
  • Ristima i variance inflation factor del modello. Accetteresti ora i risultati?

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___, 
                 data = salesData)

# Checking variance inflation factors
vif(___)

# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___, 
                 data = ___)

# Checking variance inflation factors
___
Modifica ed esegui il codice