or
Latihan ini merupakan bagian dari kursus
Karena teks merupakan data tak terstruktur, diperlukan sejumlah proses perapian agar dapat diubah menjadi format yang dapat dianalisis. Pada bab ini, Anda akan mempelajari cara menambahkan struktur pada teks dengan melakukan tokenisasi, pembersihan, dan memperlakukan teks sebagai data kategorikal.
Walau hitungan itu berguna, visualisasi lebih baik. Pada bab ini, Anda akan mempelajari cara menerapkan pengetahuan dari ggplot2 pada data teks yang rapi (tidy).
Meskipun jumlah kata dan visualisasi memberi gambaran tentang konten, kita dapat melakukan lebih banyak lagi. Pada bab ini, kita melampaui sekadar jumlah kata untuk menganalisis sentimen atau valensi emosional dari teks.
Pada bab terakhir ini, kita melampaui jumlah kata untuk mengungkap topik yang mendasari dalam sekumpulan dokumen. Kita akan menggunakan model topik standar yang dikenal sebagai latent Dirichlet allocation.
Latihan Saat Ini