MulaiMulai sekarang secara gratis

Latihan h2o

Ada beberapa pustaka Machine Learning yang tersedia di R. Namun, pustaka h2o mudah digunakan dan menyediakan implementasi word2vec. h2o juga dapat digunakan untuk berbagai tugas Machine Learning lainnya. Agar dapat menggunakan pustaka h2o, Anda perlu melakukan langkah prapemrosesan tambahan pada data Anda. Anda memiliki himpunan data bernama left_right yang berisi tweet yang di-tweet otomatis selama kampanye pemilihan AS tahun 2016.

Alih-alih menyiapkan data Anda untuk teknik analisis teks lainnya, siapkan himpunan data ini untuk digunakan dengan pustaka h2o.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Impor pustaka dan inisialisasi sesi h2o.
  • Buat objek h2o.
  • Tokenisasi tweet yang tersimpan dalam kolom content.
  • Ubah kata menjadi huruf kecil dan hapus semua stop word.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Initialize an h2o session
library(___)
___.init()

# Create an h2o object for left_right
h2o_object = as.___(left_right)

# Tokenize the words from the column of text in left_right
tweet_words <- h2o.___(h2o_object$___, "\\\\W+")

# Lowercase
tweet_words <- h2o.___(tweet_words)
# Remove stopwords from tweet_words
tweet_words <- tweet_words[is.na(___) || (!___ %in% stop_words$word),]
tweet_words
Edit dan Jalankan Kode