or
Latihan ini merupakan bagian dari kursus
Pelajari cara menghitung fitur dasar seperti jumlah kata, jumlah karakter, panjang kata rata-rata, dan jumlah karakter khusus (seperti tagar dan mention di Twitter). Anda juga akan belajar menghitung skor keterbacaan dan menentukan tingkat pendidikan yang dibutuhkan untuk memahami sebuah teks.
Pada bab ini, Anda akan mempelajari tokenization dan lemmatization. Kemudian, Anda akan belajar melakukan pembersihan teks, part-of-speech tagging, dan named entity recognition menggunakan pustaka spaCy. Setelah menguasai konsep-konsep ini, Anda akan membuat pidato Gettysburg menjadi ramah mesin, menganalisis penggunaan nomina dalam berita palsu, dan mengidentifikasi orang-orang yang disebutkan dalam sebuah artikel TechCrunch.
Pelajari pemodelan n-gram dan gunakan untuk melakukan analisis sentimen pada ulasan film.
Pelajari cara menghitung bobot tf-idf dan skor cosine similarity antara dua vektor. Anda akan menggunakan konsep ini untuk membangun sistem rekomendasi film dan TED Talk. Terakhir, Anda juga akan mempelajari word embeddings dan, dengan menggunakan representasi vektor kata, Anda akan menghitung kemiripan antara berbagai lagu Pink Floyd.
Latihan Saat Ini