1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe w analizie marketingowej w R

Connected

ćwiczenie

Regresja liniowa ze składowymi głównymi

Obiekt newsData zawiera teraz dodatkową zmienną: logShares. Liczba udostępnień mówi ci, jak często artykuły były udostępniane. Rozkład tej zmiennej jest jednak silnie skośny, dlatego będziemy pracować z logarytmem liczby udostępnień. Wykorzystaj to, czego się właśnie nauczyłeś, i przewidź wartość logarytmu udostępnień!

Instrukcje

100 XP
  • Zbuduj model przewidujący logarytm udostępnień na podstawie wszystkich pozostałych zmiennych. Zapisz go jako mod1.
  • Utwórz nową ramkę danych dataNewsComponents zawierającą logarytm udostępnień oraz wartości na pierwszych 6 składowych. Obiekt pcaNews zawiera wyniki PCA.
  • Zbuduj drugi model (mod2) przewidujący logarytm udostępnień wyłącznie na podstawie 6 składowych.
  • Porównaj skorygowane R-kwadrat obu modeli. Jak zmieniła się ta wartość po zastosowaniu samych składowych głównych? Jak dobry jest twój model?