Tidy Bir Metin Tibble'ı Oluştur!
Tidy ilkelerini öğrendiğinden, bu kod verini bir tibble olarak düzenlemene yardımcı olur; böylece tidyverse içinde rahatça çalışabilirsin!
Daha önce tidy() fonksiyonunu bir TermDocumentMatrix() nesnesine uygulamanın TDM'yi bir tibble'a dönüştüreceğini öğrenmiştin. Bu egzersizde ise comments adlı inceleme sütunundan doğrudan sözcük verisini oluşturacaksın.
İlk olarak unnest_tokens() kullanarak metni küçük harfe çevirip incelemeleri tekil sözcüklere ayrıştıracaksın.
Bazen bir derlemdeki her grubun içindeki orijinal sözcük sırasını yakalamak faydalıdır. Bunu yapmak için mutate() kullan. mutate() içinde seq_along() ile 1'den nesnenin uzunluğuna kadar bir sayı dizisi oluşturacaksın. Bu, sözcüklerin yazıldığı sırayı yakalayacaktır.
tm paketinde durak sözcükleri kaldırmak için removeWords() kullanırsın. Tidyverse'te ise önce durak sözcükler sözlüğünü yüklemen, ardından tidy metin veri çerçeven ile durak sözcükler arasında bir anti_join() uygulaman gerekir.
Bu egzersiz
R ile Duygu Analizi
kursunun bir parçasıdırEgzersiz talimatları
tidy_reviews'u, özgün inceleme nesnesibos_reviews'u pipe (%>%) ileunnest_tokens()fonksiyonuna geçirerek oluştur. Yeni sütun adı olarakwordver vecommentssütununu belirt. Tidyverse'te$ya da tırnak kullanmana gerek olmadığını unutma.- Tidy şekilde yeni bir değişken oluştur!
tidy_reviews'u yeniden yazarak,tidy_reviews'uidsütunu ilegroup_by'a pipe et. Sonra tekrar%>%ilemutate()'e gönder.mutateiçindeoriginal_word_orderadlı yeni bir değişken oluştur veseq_along(word)'a eşitle. - Tibble'ı,
tidy_reviews'u yazdır. - Hazır "SMART" durak sözcüklerini
data("stop_words")ile R oturumuna yükle. %>%ile özgüntidy_reviews'uanti_join()'a geçirerektidy_reviews'u üzerine yaz.anti_join()içinde önceden belirlenmişstop_wordssözlüğünü kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Vector to tibble
tidy_reviews <- bos_reviews %>%
___(___, ___)
# Group by and mutate
tidy_reviews <- tidy_reviews %>%
___(___) %>%
___(original_word_order = ___(___))
# Quick review
___
# Load stopwords
___
# Perform anti-join
tidy_reviews_without_stopwords <- tidy_reviews %>%
___(___)