Pelajari cara menghitung fitur dasar seperti jumlah kata, jumlah karakter, panjang kata rata-rata, dan jumlah karakter khusus (seperti tagar dan mention di Twitter). Anda juga akan belajar menghitung skor keterbacaan dan menentukan tingkat pendidikan yang dibutuhkan untuk memahami sebuah teks.

Pengantar rekayasa fitur NLP

Format data untuk algoritme ML

Pengodean one-hot

Ekstraksi fitur dasar

Jumlah karakter pada tweet berbahasa Rusia

Jumlah kata pada TED talk

Tagar dan sebutan dalam cuitan berbahasa Rusia

Uji keterbacaan

Keterbacaan 'The Myth of Sisyphus'

Keterbacaan berbagai publikasi

Fitur dasar dan skor keterbacaan

Pada bab ini, Anda akan mempelajari tokenization dan lemmatization. Kemudian, Anda akan belajar melakukan pembersihan teks, part-of-speech tagging, dan named entity recognition menggunakan pustaka spaCy. Setelah menguasai konsep-konsep ini, Anda akan membuat pidato Gettysburg menjadi ramah mesin, menganalisis penggunaan nomina dalam berita palsu, dan mengidentifikasi orang-orang yang disebutkan dalam sebuah artikel TechCrunch.

Tokenisasi dan Lematisasi

Mengidentifikasi lemma

Tokenisasi Pidato Gettysburg

Lematisasi pidato Gettysburg

Pembersihan teks

Membersihkan sebuah postingan blog

Membersihkan TED Talks dalam sebuah dataframe

Part-of-speech tagging

POS tagging pada Lord of the Flies

Menghitung nomina dalam sebuah teks

Penggunaan nomina dalam berita palsu

Pengenalan entitas bernama

Entitas bernama dalam sebuah kalimat

Mengidentifikasi orang yang disebutkan dalam sebuah artikel berita

Praproses teks, POS tagging, dan NER

Pelajari pemodelan n-gram dan gunakan untuk melakukan analisis sentimen pada ulasan film.

Membangun model bag-of-words

Vektor kata dengan kosakata yang diberikan

Model BoW untuk tagline film

Menganalisis dimensi dan prapemrosesan

Memetakan indeks fitur dengan nama fitur

Membangun klasifier Naive Bayes BoW

Vektor BoW untuk ulasan film

Memprediksi sentimen ulasan film

Membangun model n-gram

Model n-gram untuk slogan film

N-gram tingkat lebih tinggi untuk analisis sentimen

Membandingkan kinerja model n-gram

Model N-Gram

Pelajari cara menghitung bobot tf-idf dan skor cosine similarity antara dua vektor. Anda akan menggunakan konsep ini untuk membangun sistem rekomendasi film dan TED Talk. Terakhir, Anda juga akan mempelajari word embeddings dan, dengan menggunakan representasi vektor kata, Anda akan menghitung kemiripan antara berbagai lagu Pink Floyd.

Membangun vektor dokumen tf-idf

Bobot tf-idf untuk kata yang sering muncul

Vektor tf-idf untuk TED Talk

Kemiripan kosinus

Rentang skor kosinus

Menghitung dot product

Matriks kemiripan kosinus dari sebuah korpus

Membangun sistem rekomendasi berbasis alur cerita

Membandingkan linear_kernel dan cosine_similarity

Mesin rekomendasi plot

Fungsi rekomendasi

Rekomendasi TED Talk

Melampaui n-gram: word embeddings

Menghasilkan vektor kata

Menghitung kemiripan lagu-lagu Pink Floyd

Selamat!

TF-IDF dan skor kemiripan

Russian Troll Tweets

Movie Overviews and Taglines

Preprocessed Movie Reviews

TED Talk Transcripts

Real and Fake News Headlines

Dalam kursus ini, Anda akan mempelajari teknik-teknik untuk mengekstrak informasi bermanfaat dari teks dan memprosesnya ke dalam format yang sesuai untuk penerapan model ML. Secara khusus, Anda akan mempelajari POS tagging, named entity recognition, skor keterbacaan, model n-gram dan tf-idf, serta cara mengimplementasikannya menggunakan scikit-learn dan spaCy. Anda juga akan belajar menghitung seberapa mirip dua dokumen satu sama lain. Dalam prosesnya, Anda akan memprediksi sentimen ulasan film serta membangun sistem rekomendasi film dan Ted Talk. Setelah mengikuti kursus ini, Anda akan mampu merekayasa fitur-fitur penting dari teks apa pun dan menyelesaikan beberapa masalah paling menantang dalam data science!

Introduction to Natural Language Processing in Python

Supervised Learning with scikit-learn

Pelajari teknik Python untuk mengekstrak informasi dari teks dan memprosesnya untuk model pembelajaran mesin.

Rekayasa Fitur untuk NLP di Python

Pelajari teknik untuk mengekstrak informasi berguna dari teks dan memprosesnya ke dalam format yang sesuai untuk pembelajaran mesin.

Selamat!

Create Your Free Account