BaşlayınÜcretsiz Başlayın

Tidy Bir Metin Tibble'ı Oluştur!

Tidy ilkelerini öğrendiğinden, bu kod verini bir tibble olarak düzenlemene yardımcı olur; böylece tidyverse içinde rahatça çalışabilirsin!

Daha önce tidy() fonksiyonunu bir TermDocumentMatrix() nesnesine uygulamanın TDM'yi bir tibble'a dönüştüreceğini öğrenmiştin. Bu egzersizde ise comments adlı inceleme sütunundan doğrudan sözcük verisini oluşturacaksın.

İlk olarak unnest_tokens() kullanarak metni küçük harfe çevirip incelemeleri tekil sözcüklere ayrıştıracaksın.

Bazen bir derlemdeki her grubun içindeki orijinal sözcük sırasını yakalamak faydalıdır. Bunu yapmak için mutate() kullan. mutate() içinde seq_along() ile 1'den nesnenin uzunluğuna kadar bir sayı dizisi oluşturacaksın. Bu, sözcüklerin yazıldığı sırayı yakalayacaktır.

tm paketinde durak sözcükleri kaldırmak için removeWords() kullanırsın. Tidyverse'te ise önce durak sözcükler sözlüğünü yüklemen, ardından tidy metin veri çerçeven ile durak sözcükler arasında bir anti_join() uygulaman gerekir.

Bu egzersiz

R ile Duygu Analizi

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • tidy_reviews'u, özgün inceleme nesnesi bos_reviews'u pipe (%>%) ile unnest_tokens() fonksiyonuna geçirerek oluştur. Yeni sütun adı olarak word ver ve comments sütununu belirt. Tidyverse'te $ ya da tırnak kullanmana gerek olmadığını unutma.
  • Tidy şekilde yeni bir değişken oluştur! tidy_reviews'u yeniden yazarak, tidy_reviews'u id sütunu ile group_by'a pipe et. Sonra tekrar %>% ile mutate()'e gönder. mutate içinde original_word_order adlı yeni bir değişken oluştur ve seq_along(word)'a eşitle.
  • Tibble'ı, tidy_reviews'u yazdır.
  • Hazır "SMART" durak sözcüklerini data("stop_words") ile R oturumuna yükle.
  • %>% ile özgün tidy_reviews'u anti_join()'a geçirerek tidy_reviews'u üzerine yaz. anti_join() içinde önceden belirlenmiş stop_words sözlüğünü kullan.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Vector to tibble
tidy_reviews <- bos_reviews %>% 
  ___(___, ___)

# Group by and mutate
tidy_reviews <- tidy_reviews %>% 
  ___(___) %>% 
  ___(original_word_order = ___(___))

# Quick review
___

# Load stopwords
___

# Perform anti-join
tidy_reviews_without_stopwords <- tidy_reviews %>% 
  ___(___)
Kodu Düzenle ve Çalıştır