h2o uygulaması
R'de birden fazla machine learning kütüphanesi mevcut. Ancak h2o kütüphanesi kullanımı kolaydır ve bir word2vec uygulaması sunar. h2o, başka birçok machine learning görevi için de kullanılabilir. Yine de h2o kütüphanesini kullanabilmek için verinde ek ön işleme adımları uygulaman gerekir. Elinde, 2016 ABD seçim kampanyası sırasında otomatik olarak atılan tweet'leri içeren left_right adlı bir veri kümesi var.
Verilerini diğer metin analizi tekniklerine göre hazırlamak yerine, bu veri kümesini h2o kütüphanesi ile kullanılacak şekilde hazırla.
Bu egzersiz
R ile Doğal Dil İşlemeye Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Kütüphaneyi içe aktar ve bir
h2ooturumu başlat. - Bir
h2onesnesi oluştur. contentsütununda saklanan tweet'leri token'lara ayır.- Kelimeleri küçük harfe dönüştür ve tüm durak sözcükleri kaldır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Initialize an h2o session
library(___)
___.init()
# Create an h2o object for left_right
h2o_object = as.___(left_right)
# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")
# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words