Bir derlemden tibble oluşturma
Bir iş arkadaşından aldığın ham petrol verisi derlemini daha iyi incelemek için, belgelerdeki metni temizleyecek bir işlem hattı kurmaya karar verdin. Bunu tm paketiyle yapmayı araştırmak yerine, derlemi bir tibble’a dönüştürerek zaten aşina olduğun unnest_tokens(), count() ve anti_join() işlevlerini kullanmak istiyorsun. crude derlemi her belgenin hem üstverisini (metadata) hem de metnini içerir.
Bu egzersiz, kursun bir parçasıdır
R ile Doğal Dil İşlemeye Giriş
Egzersiz talimatları
- Derlemi bir tibble’a dönüştür.
- Sütun adlarını yazdırmak için
nameskullan. crude_tibble'ıntextsütununu sözcük bazında token’laştır, say ve durak (stop) sözcükleri kaldır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)