BaşlayınÜcretsiz başlayın

Bir derlemden tibble oluşturma

Bir iş arkadaşından aldığın ham petrol verisi derlemini daha iyi incelemek için, belgelerdeki metni temizleyecek bir işlem hattı kurmaya karar verdin. Bunu tm paketiyle yapmayı araştırmak yerine, derlemi bir tibble’a dönüştürerek zaten aşina olduğun unnest_tokens(), count() ve anti_join() işlevlerini kullanmak istiyorsun. crude derlemi her belgenin hem üstverisini (metadata) hem de metnini içerir.

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

  • Derlemi bir tibble’a dönüştür.
  • Sütun adlarını yazdırmak için names kullan.
  • crude_tibble'ın text sütununu sözcük bazında token’laştır, say ve durak (stop) sözcükleri kaldır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Kodu Düzenle ve Çalıştır