Bab 1 dari Pengantar Natural Langauge Processing mempersiapkan Anda untuk menjalankan analisis teks pertama Anda. Anda akan mempelajari regular expression dan tokenisasi, dua komponen paling umum dalam sebagian besar tugas analisis. Dengan regular expression, Anda dapat mencari pola apa pun yang Anda bayangkan, dan dengan tokenisasi, Anda dapat menyiapkan dan membersihkan teks untuk analisis yang lebih canggih. Bab ini penting untuk menerapkan teknik-teknik yang akan kita pelajari di bab-bab berikutnya dalam kursus ini.

Dasar-dasar regular expression

Berlatih sintaks dengan grep

Mengeksplorasi fungsi regular expression.

Tokenisasi

Fungsi-fungsi tidytext

Tokenisasi: kalimat

Dasar-dasar pembersihan teks

Prapemrosesan teks: hapus stop word

Prapemrosesan teks: Stemming

Dasar-Dasar Sejati

Di bab ini, Anda akan mempelajari cara-cara paling umum dan banyak diteliti untuk menganalisis teks. Anda akan melihat pembuatan korpus teks, memperluas representasi bag-of-words menjadi matriks TFIDF, dan menggunakan metrik cosine similarity untuk menentukan seberapa mirip dua potongan teks satu sama lain. Anda membangun fondasi untuk mempraktikkan NLP sebelum masuk ke penerapan NLP pada bab 3 dan 4.

Memahami korpus R

Mengeksplorasi korpus R

Membuat tibble dari korpus

Membuat korpus

Representasi bag-of-words

Latihan BoW

Contoh BoW

Matriks jarang (sparse matrices)

TFIDF

Perhitungan manual

Latihan TFIDF

Kemiripan Kosinus

Contoh kegagalan dalam analisis teks

Contoh cosine similarity

Representasi Teks

Bab 3 berfokus pada dua pendekatan analisis teks yang umum, pemodelan klasifikasi dan topic modeling. Jika Anda mengerjakan proyek analisis teks, Anda hampir pasti akan menggunakan salah satu atau kedua metode ini. Bab ini mengajarkan cara melakukan kedua teknik tersebut dan memberi wawasan tentang bagaimana mendekati teknik-teknik ini dari sudut pandang praktis.

Menyiapkan teks untuk pemodelan

Persiapan data

Menghapus term jarang (sparse)

Pemodelan klasifikasi

Contoh pemodelan klasifikasi

Confusion matrix

Perbandingan tibble TFIDF vs dtm

Pengantar pemodelan topik

Latihan LDA

Menetapkan topik ke dokumen

LDA dalam praktik

Menguji perplexity

Meninjau hasil LDA

Aplikasi: Klasifikasi dan Topic Modeling

Pada bab 4 kita membahas dua teknik utama dalam natural language processing, analisis sentimen dan word embedding. Keduanya merupakan teknik analisis yang wajib dipahami bagi siapa pun yang mempelajari dasar-dasar analisis teks. Selain itu, Anda akan mempelajari secara singkat tentang BERT, part-of-speech tagging, dan named entity recognition. Hampir 15 teknik analisis berbeda dibahas dalam kursus ini, sehingga bab 4 ditutup dengan merangkum semua teknik hebat yang akan Anda pelajari dalam kursus ini.

Analisis sentimen

leksikon tidytext

Skor sentimen

Sentimen dan emosi

Word embeddings

Latihan h2o

word2vec

Analisis NLP tambahan

Meninjau metode #1

Tinjau metode #2

Kesimpulan

Teknik Lanjutan

Animal Farm

Russian Troll tweets

Seperti halnya kursus fundamental lainnya, Pengantar Natural Language Processing di R dirancang untuk membekali Anda dengan alat yang diperlukan untuk memulai analisis teks. Natural language processing (NLP) adalah bidang yang terus berkembang dalam data science, dengan banyak kemajuan menarik selama dekade terakhir. Kursus ini akan membahas dasar-dasar topik tersebut dan mempersiapkan Anda untuk memperluas kemampuan analisis. Kita akan mendalami regular expression, topic modeling, named entity recognition, dan lainnya, sambil menyajikan contoh menyeluruh yang dapat Anda gunakan untuk memulai analisis selanjutnya.

Intermediate R

Introduction to the Tidyverse

Pelajari dasar NLP di R: ekspresi reguler, pemodelan topik, pengenalan entitas, dan lainnya.

Pengantar Natural Language Processing di R

Dapatkan gambaran menyeluruh tentang semua keterampilan dan alat yang diperlukan untuk menguasai Pemrosesan Bahasa Alami (Natural Language Processing) dalam R.

TFIDF

Create Your Free Account