Kutupluluğa Dayalı Korpuslar Oluştur
Bu egzersizde metin madenciliği iş akışının 3. Adımını uygulayacaksın. qdap tidy bir paket olmasa da, dönen polarity listesindeki tüm kutupluluk (bu arada ipucu) puanlarını temsil eden yeni bir sütunu mutate() ile ekleyeceksin. 3. bölümde yalnızca base R bildirimleri kullanan özel bir pol_subsections fonksiyonu kullanmıştık. Ancak tidy ilkelerine uyarak, bu egzersizde önce filter() kullanılıyor ve ardından pull() tanıtılıyor. pull() fonksiyonu, tek bir değişkeni çıkarmak için [[ gibi çalışır.
Ayrıştırdıktan sonra tüm olumlu ve olumsuz yorumları, olumlu ve olumsuz kiralama yorumlarındaki tüm kelimeleri temsil eden iki büyük belgeye birleştireceksin.
Son olarak, Terim Frekansı Ters Belge Frekansı (TFIDF) ağırlıklı bir Terim Belge Matrisi (TDM) oluşturacaksın. Bu egzersiz kodu tidy bir yapı ile başladığından, stili tutarlı tutmak için tm paketinden ödünç alınan bazı fonksiyonlar %>% operatörüyle birlikte kullanılıyor. Eğer tm paketinin temelleri sana tanıdık değilse, R ile Bag-of-Words ile Metin Madenciliği kursuna göz at. Bir kelimenin kaç kez kullanıldığını saymak (frekans) yerine, TDM'deki değerler aşırı kullanılan terimler için cezalandırılır; bu da bilgi içermeyen kelimeleri azaltmaya yardımcı olur.
Bu egzersiz
R ile Duygu Analizi
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
pos_terms <- bos_reviews %>%
# Add polarity column
___(polarity = ___) %>%
# Filter for positive polarity
___(___) %>%
# Extract comments column
___(___) %>%
# Paste and collapse
___(collapse = "___")