Sınıflandırma modelleme örneği

Daha önce sınıflandırma için bir dizi Rusça tweet hazırladın. 20.000 tweet arasından, account_type değeri Left veya Right olanları süzdün ve her birinden ilk 2000 tweet'i seçtin. Tweet'leri sözcüklere tokenleştirdin, durak (stop) sözcükleri kaldırdın ve kök bulma (stemming) uyguladın. Ayrıca, sözcük sayılarını ağırlıklar için TFIDF değerleri kullanan bir belge-terim matrisine dönüştürdün ve bu matrisi left_right_matrix_small olarak kaydettin.

Bu matrisi kullanarak bir tweet'in sol eğilimli bir tweet botundan mı yoksa sağ eğilimli bir tweet botundan mı üretildiğini tahmin edeceksin. Etiketler left_right_labels vektöründe bulunuyor.

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

Kursa Göz Atın

Egzersiz talimatları

Tekrarlanabilirlik için rastgele tohumu 1111 olarak ayarla.
Eğitim ve test veri kümelerini oluştur. Eğitim verisi için %75'lik bir örnek kullan.
Eğitim verisi üzerinde bir random forest modeli çalıştır, yanıt vektörü y için left_right_labels'ı kullan.
Random forest sonuçlarını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

R ile Doğal Dil İşlemeye Giriş

IntermediárioNível de habilidade

4.8+

Kursa Ücretsiz Başla

Doğal Dil İşlemeye Giriş'in 1. bölümü, metin üzerinde ilk analizini çalıştırmaya hazırlıyor. En yaygın analiz görevlerinin iki bileşeni olan düzenli ifadeler ve tokenleştirmeyi keşfedeceksin. Düzenli ifadelerle aklına gelebilecek herhangi bir deseni arayabilir, tokenleştirme ile metni daha gelişmiş analizlere hazırlayıp temizleyebilirsin. Bu bölüm, kursun geri kalanındaki tekniklerin üstesinden gelmek için gereklidir.

Exercise 1: Düzenli ifadelerin temelleri Exercise 2: grep ile sözdizimi pratiği Exercise 3: Düzenli ifade fonksiyonlarını keşfetme.Exercise 4: Tokenizasyon Exercise 5: tidytext fonksiyonları Exercise 6: Tokenizasyon: cümleler Exercise 7: Metin temizliğinin temelleri Exercise 8: Metin önişleme: durak sözcükleri kaldır Exercise 9: Metin ön işleme: Kök bulma (Stemming)

Bu bölümde, metni analiz etmenin en yaygın ve en çok incelenen yollarını öğreneceksin. Bir metin korpusu oluşturmayı, bir bag-of-words temsilini TFIDF matrisine genişletmeyi ve iki metin parçasının birbirine ne kadar benzer olduğunu belirlemek için cosine-similarity ölçütlerini kullanmayı göreceksin. 3. ve 4. bölümlerde NLP uygulamalarına dalmadan önce, NLP pratiği için temellerini güçlendireceksin.

Exercise 1: Bir R derlemesini (corpus) anlamak Exercise 2: Bir R derlemini keşfet Exercise 3: Bir derlemden tibble oluşturma Exercise 4: Bir corpus oluşturma Exercise 5: Bag-of-words gösterimi Exercise 6: BoW Uygulaması Exercise 7: BoW Örneği Exercise 8: Seyrek matrisler Exercise 9: TFIDF Exercise 10: Manuel hesaplamalar Exercise 11: TFIDF Alıştırması Exercise 12: Kosinüs Benzerliği Exercise 13: Metin analizinde başarısız olmanın bir örneği Exercise 14: Kosinüs benzerliği örneği

3. bölüm, iki yaygın metin analizi yaklaşımına odaklanır: sınıflandırma modelleme ve konu modelleme. Metin analizi projelerinde çalışıyorsan, er ya da geç bu yöntemlerden birini ya da her ikisini kullanacaksın. Bu bölüm, her iki tekniği nasıl uygulayacağını öğretir ve bu tekniklere pratik açıdan nasıl yaklaşacağına dair içgörüler sunar.

Exercise 1: Modelleme için metni hazırlama Exercise 2: Veri hazırlama Exercise 3: Seyrek terimleri kaldırma Exercise 4: Sınıflandırma modelleme Exercise 5: Sınıflandırma modelleme örneği

Geçerli egzersiz

Exercise 6: Karışıklık matrisleri Exercise 7: TFIDF tibble vs dtm Exercise 8: Konu modellemeye giriş Exercise 9: LDA alıştırması Exercise 10: Konuları belgelere atama Exercise 11: Pratikte LDA Exercise 12: Perpleksiteyi test etme Exercise 13: LDA sonuçlarını gözden geçirme

4. bölümde doğal dil işlemenin iki temelini ele alıyoruz: duygu analizi ve kelime gömmeleri. Bunlar, metin analizi temellerini öğrenen herkes için olmazsa olmaz iki analiz tekniğidir. Ayrıca kısaca BERT, sözcük türü etiketleme (part-of-speech tagging) ve adlandırılmış varlık tanımayı da öğreneceksin. Bu kursta neredeyse 15 farklı analiz tekniği ele alındı; bu yüzden 4. bölüm, bu kursta öğreneceğin tüm harika teknikleri özetleyerek sona eriyor.

Exercise 1: Duygu analizi Exercise 2: tidytext sözlükleri Exercise 3: Duygu puanları Exercise 4: Duygu ve his analizi Exercise 5: Kelime gömme (word embeddings)Exercise 6: h2o uygulaması Exercise 7: word2vec Exercise 8: Ek NLP analizleri Exercise 9: Yöntemleri gözden geçirme #1 Exercise 10: Yöntemleri gözden geçir #2 Exercise 11: Sonuç