or
Latihan ini merupakan bagian dari kursus
Pada bab ini Anda akan belajar cara membuat dan melakukan kueri tabel SQL di Spark. Spark SQL menghadirkan kejelasan ekspresif SQL ke Spark. Anda juga akan mempelajari cara menggunakan window function SQL di Spark. Window function melakukan perhitungan lintas baris yang berkaitan dengan baris saat ini. Fitur ini sangat menyederhanakan pencapaian hasil yang sulit diekspresikan hanya dengan join dan agregasi tradisional. Kita akan menggunakan window function untuk melakukan penjumlahan berjalan, selisih berjalan, dan operasi lain yang menantang untuk dilakukan dalam SQL dasar.
Pada bab ini, Anda akan memuat teks bahasa alami. Lalu Anda akan menerapkan analisis jendela geser untuk menemukan urutan kata yang sering muncul.
Pada bab-bab sebelumnya Anda telah belajar memanfaatkan ekspresivitas window function SQL. Namun, ekspresivitas ini menjadikan pemahaman cara melakukan cache dataframe dan cache tabel SQL dengan benar semakin penting. Penting juga untuk mengetahui cara mengevaluasi aplikasi Anda. Anda akan mempelajarinya menggunakan Spark UI. Anda juga akan mempelajari praktik terbaik untuk logging di Spark. Spark SQL menghadirkan alat bermanfaat lain untuk menyetel kinerja kueri, yaitu rencana eksekusi kueri. Anda akan belajar menggunakan rencana eksekusi untuk mengevaluasi asal-usul (provenance) sebuah dataframe.
Latihan Saat Ini
Bab-bab sebelumnya membekali Anda dengan alat untuk memuat teks mentah, melakukan tokenisasi, dan mengekstrak urutan kata. Ini sudah sangat berguna untuk analisis, dan juga bermanfaat untuk Machine Learning. Semua yang telah Anda pelajari kini dipadukan dengan menggunakan logistic regression untuk mengklasifikasikan teks. Pada akhir bab ini, Anda akan telah memuat data teks bahasa alami mentah dan menggunakannya untuk melatih sebuah pengklasifikasi teks.