BaşlayınÜcretsiz başlayın

Veri hazırlama

2016 ABD seçimleri sırasında, Rus tweet botları hem demokratlara hem de cumhuriyetçilere sürekli siyasi söylem yaymak için kullanıldı. Sana bu tür tweet’lerden oluşan russian_tweets adlı bir veri kümesi verildi. Bu tweet’leri sol eğilimli (demokrat) veya sağ eğilimli (cumhuriyetçi) olarak sınıflandırmaya karar verdin. Bir sınıflandırma modeli kurmadan önce, metni modelleme için temizlemen ve hazırlaman gerekiyor.

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

  • Tokenleştirmeyi, token’ları köklerine indirerek tamamla.
  • Belge-terim matrisi oluşturmak için cast_dtm() kullan.
  • Belge-terim matrisini tf-idf ağırlıklandırmasıyla ağırlıklandır.
  • Matrisi yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Stem the tokens
russian_tokens <- russian_tweets %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words) %>%
  ___(word = ___(word))

# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
  count(tweet_id, word) %>%
  ___(document = ___, term = ___,
           value = n, weighting = tm::___)

# Print the matrix details 
___
Kodu Düzenle ve Çalıştır