Evitare la multicollinearità
Torniamo al nostro insieme di dati delle vendite salesData, già caricato nell'area di lavoro. Inoltre, il pacchetto rms è caricato.
Stimiamo una regressione lineare multipla! Ovviamente vogliamo sfruttare tutte le variabili presenti nel dataset.
Questo esercizio fa parte del corso
Machine Learning per il Marketing Analytics in R
Istruzioni dell'esercizio
- Calcola un modello completo chiamato
salesModel1usando tutte le variabili tranneidper spiegare le vendite di questo mese. Per farlo, inserisci i nomi corretti delle variabili nella seguente sintassi generica:response ~ . - excluded_variable. Si legge come "responsemodellata da tutte le variabili tranneexcluded_variable." - Stima i variance inflation factor usando la funzione
vif()del pacchettorms. - Oltre a escludere la variabile
id, rimuovi le variabilipreferredBrandenBrandsper evitare multicollinearità. Lo fai aggiungendo ciascuna con-. Salva il modello in un oggetto chiamatosalesModel2. - Ristima i variance inflation factor del modello. Accetteresti ora i risultati?
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___,
data = salesData)
# Checking variance inflation factors
vif(___)
# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___,
data = ___)
# Checking variance inflation factors
___