Karena teks merupakan data tak terstruktur, diperlukan sejumlah proses perapian agar dapat diubah menjadi format yang dapat dianalisis. Pada bab ini, Anda akan mempelajari cara menambahkan struktur pada teks dengan melakukan tokenisasi, pembersihan, dan memperlakukan teks sebagai data kategorikal.

Teks sebagai data

Data cuitan maskapai

Ringkasan berkelompok

Menghitung data kategorikal

Menghitung jenis pengguna

Merangkum tipe pengguna

Tokenisasi dan pembersihan

Tokenisasi dan penghitungan

Membersihkan dan menghitung

Merapikan Teks

Walau hitungan itu berguna, visualisasi lebih baik. Pada bab ini, Anda akan mempelajari cara menerapkan pengetahuan dari ggplot2 pada data teks yang rapi (tidy).

Memplot jumlah kata

Memvisualisasikan keluhan

Memvisualisasikan non-keluhan

Meningkatkan plot jumlah kata

Menambahkan stop words kustom

Memvisualisasikan jumlah kata menggunakan faktor

Memfacet plot jumlah kata

Menghitung menurut produk dan menyusun ulang urutan

Memvisualisasikan jumlah kata dengan facet

Memplot word cloud

Membuat word cloud

Tambahkan sentuhan warna

Memvisualisasikan Teks

Meskipun jumlah kata dan visualisasi memberi gambaran tentang konten, kita dapat melakukan lebih banyak lagi. Pada bab ini, kita melampaui sekadar jumlah kata untuk menganalisis sentimen atau valensi emosional dari teks.

Kamus sentimen

Menghitung sentimen NRC

Memvisualisasikan sentimen NRC

Menambahkan kamus

Menghitung sentimen

Memvisualisasikan sentimen

Meningkatkan analisis sentimen

Latihan mengubah bentuk data

Berlatih dengan ringkasan berkelompok

Memvisualisasikan sentimen berdasarkan jenis keluhan

Analisis Sentimen

Pada bab terakhir ini, kita melampaui jumlah kata untuk mengungkap topik yang mendasari dalam sekumpulan dokumen. Kita akan menggunakan model topik standar yang dikenal sebagai latent Dirichlet allocation.

Latent Dirichlet allocation

Topik sebagai probabilitas kata

Meringkas topik

Memvisualisasikan topik

Matriks istilah dokumen

Membuat DTM

Mengevaluasi DTM sebagai matriks

Menjalankan model topik

Menerapkan LDA

Merapikan keluaran LDA

Membandingkan keluaran LDA

Menafsirkan topik

Menamai tiga topik

Menamai empat topik

Penutup

Pemodelan Topik

Airline tweets

Roomba reviews

Dari media sosial hingga ulasan produk, teks semakin menjadi jenis data yang penting di berbagai aplikasi, termasuk analitik pemasaran. Dalam banyak kasus, teks menggantikan bentuk data tak terstruktur lainnya karena biayanya yang rendah dan sifatnya yang mutakhir. Namun, untuk memanfaatkan seluruh potensi teks, Anda perlu mengetahui cara memikirkan, membersihkan, meringkas, dan memodelkan teks. Dalam kursus ini, Anda akan menggunakan alat tidy terbaru untuk memulai analisis teks dengan cepat dan mudah. Anda akan mempelajari cara merapikan dan memvisualisasikan teks, melakukan analisis sentimen, serta menjalankan dan menafsirkan model topik.

Introduction to the Tidyverse

Pelajari analisis data teks dengan framework tidy di R: analisis sentimen, pemodelan topik, visualisasi.

Penutup

Create Your Free Account