Langkah 2: Identifikasi Sumber Teks
Dalam latihan singkat ini, Anda akan memuat dan meninjau korpus kecil ulasan sewa properti di sekitar Boston. Semoga Anda sudah mengenal read.csv() yang memungkinkan Anda memuat berkas dengan pemisah koma. Ini mungkin terlihat biasa saja, tetapi tujuan bab ini adalah membuat Anda menjalankan seluruh alur kerja dari awal hingga akhir, jadi mari mulai dengan proses pemasukan data!
Selanjutnya, cukup terapkan str() untuk meninjau struktur dari data frame. Ini adalah fungsi yang nyaman untuk menampilkan nilai awal dan tipe kelas vektor secara ringkas.
Terakhir, Anda akan menerapkan dim() untuk mencetak dimensi dari data frame. Untuk sebuah data frame, konsol Anda akan menampilkan jumlah baris dan jumlah kolom.
Fungsi lain seperti head(), tail() atau summary() sering digunakan untuk eksplorasi data, namun dalam kasus ini kita ringkas saja peninjauannya agar Anda bisa segera masuk ke analisis sentimen yang menyenangkan!
Latihan ini adalah bagian dari kursus
Analisis Sentimen di R
Petunjuk latihan
Ulasan sewa properti Boston disimpan dalam sebuah berkas CSV yang lokasinya ditentukan oleh variabel pradefinisi bos_reviews_file.
- Muat ulasan properti dari
bos_reviews_filedenganread.csv(). Beri nama objeknyabos_reviews. - Tinjau struktur data frame menggunakan fungsi dasar
str()yang diterapkan padabos_reviews. - Cari tahu berapa banyak ulasan yang Anda gunakan dengan memanggil
dim()padabos_reviews.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# bos_reviews_file has been pre-defined
bos_reviews_file
# load raw text
bos_reviews <- ___
# Structure
___
# Dimensions
___