Bir derlemden tibble oluşturma
Bir iş arkadaşından aldığın ham petrol verisi derlemini daha iyi incelemek için, belgelerdeki metni temizleyecek bir işlem hattı kurmaya karar verdin. Bunu tm paketiyle yapmayı araştırmak yerine, derlemi bir tibble’a dönüştürerek zaten aşina olduğun unnest_tokens(), count() ve anti_join() işlevlerini kullanmak istiyorsun. crude derlemi her belgenin hem üstverisini (metadata) hem de metnini içerir.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Derlemi bir tibble’a dönüştür.
- Sütun adlarını yazdırmak için
nameskullan. crude_tibble'ıntextsütununu sözcük bazında token’laştır, say ve durak (stop) sözcükleri kaldır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)