Muat beberapa teks
Text mining dimulai dengan memuat data teks ke dalam R, yang akan kita lakukan dengan fungsi read.csv().
Praktik terbaiknya adalah memeriksa objek yang Anda baca untuk memastikan Anda mengetahui kolom mana yang penting. Fungsi str() menyediakan cara yang efisien untuk melakukannya.
Jika data frame berisi kolom yang bukan teks, Anda mungkin ingin membuat objek baru yang hanya menggunakan kolom teks yang benar (misalnya, some_object$column_name).
Harap diketahui bahwa ini adalah data nyata dari Twitter dan oleh karena itu selalu ada risiko mengandung kata-kata kasar atau konten ofensif lainnya (pada latihan ini, dan latihan selanjutnya yang juga menggunakan data Twitter nyata).
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
Data telah dimuat untuk Anda dan tersedia di coffee_data_file.
- Buat objek baru
tweetsmenggunakanread.csv()pada berkascoffee_data_file, yang berisi tweet yang menyebutkan kopi. - Periksa objek
tweetsmenggunakanstr()untuk menentukan kolom mana yang memuat teks yang akan Anda analisis. - Buat objek
coffee_tweetsbaru dengan hanya menggunakan kolom teks yang Anda identifikasi sebelumnya. Untuk melakukannya, gunakan operator$dan nama kolom.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import text data from CSV, no factors
tweets <- ___
# View the structure of tweets
___
# Isolate text from tweets
coffee_tweets <- ___