Membuat data fitur jendela konteks

Teknik moving window bermanfaat untuk model algoritme machine learning yang menggunakan data fitur jendela konteks.

Sebuah tabel text dengan kolom id, word, part, title tersedia di ruang kerja Anda. Tabel ini memuat bab 9, 10, 11, dan 12 dari buku Sherlock Holmes. Kata-kata sudah diproses dan diatur menjadi satu kata per baris. Setiap kata memiliki indeks bilangan bulat unik yang disediakan oleh kolom id. Kolom id bernilai lebih kecil untuk kata yang muncul lebih awal dalam teks dan lebih besar untuk kata yang muncul lebih akhir dalam teks.

Sepuluh baris pertama dari himpunan data untuk bab 12 dicetak ke konsol sebagai Table1. Sepuluh baris pertama dari hasil yang diinginkan, dibatasi untuk menampilkan part 12 (Bab 12), dicetak ke konsol sebagai Table2. Dalam Table2, kata "diberikan" untuk baris tersebut disediakan di kolom w3. Kolom w1 dan w2 memberikan dua kata yang tepat sebelum kata yang diberikan. Kolom w4 dan w5 memberikan dua kata yang tepat setelah kata yang diberikan.

Perhatikan bahwa w1 dan w2 bernilai null pada baris pertama. Ini karena tidak ada kata sebelum w3 (di sini, "xii") yang berada dalam part 12.

Jangan ragu merujuk ke slide yang tersedia di sisi kanan konsol jika Anda lupa bagaimana sesuatu dilakukan di video.

Latihan ini merupakan bagian dari kursus

Pengantar Spark SQL dalam Python

Instruksi latihan

Dapatkan kata untuk setiap baris, beserta dua kata sebelumnya dan dua kata sesudahnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Word for each row, previous two and subsequent two words
query = """
SELECT
part,
LAG(word, 2) OVER(PARTITION BY ____ ORDER BY ____) AS w1,
LAG(word, ____) OVER(____ BY part ____ BY id) AS w2,
word AS w3,
____(word, 1) OVER(____ BY part ____ BY id) AS w4,
LEAD(word, 2) OVER(____ BY part ____ BY id) AS w5
FROM text
"""
spark.sql(query).where("part = 12").show(10)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pengantar Spark SQL dalam Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pada bab ini Anda akan belajar cara membuat dan melakukan kueri tabel SQL di Spark. Spark SQL menghadirkan kejelasan ekspresif SQL ke Spark. Anda juga akan mempelajari cara menggunakan window function SQL di Spark. Window function melakukan perhitungan lintas baris yang berkaitan dengan baris saat ini. Fitur ini sangat menyederhanakan pencapaian hasil yang sulit diekspresikan hanya dengan join dan agregasi tradisional. Kita akan menggunakan window function untuk melakukan penjumlahan berjalan, selisih berjalan, dan operasi lain yang menantang untuk dilakukan dalam SQL dasar.

Exercise 1: Membuat dan melakukan kueri pada tabel SQL di Spark Exercise 2: Buat tabel SQL dari sebuah dataframe Exercise 3: Menentukan nama kolom dari sebuah tabel Exercise 4: SQL fungsi window Exercise 5: Jumlah berjalan menggunakan SQL fungsi window Exercise 6: Perbaiki kueri yang rusak Exercise 7: Notasi titik dan SQL Exercise 8: Agregasi, selangkah demi selangkah Exercise 9: Mengagregasi kolom yang sama dua kali Exercise 10: Agregasi SQL dengan notasi titik Exercise 11: Konversi fungsi window dari notasi titik ke SQL

Pada bab ini, Anda akan memuat teks bahasa alami. Lalu Anda akan menerapkan analisis jendela geser untuk menemukan urutan kata yang sering muncul.

Exercise 1: Memuat teks bahasa alami Exercise 2: Memuat dataframe dari berkas parquet Exercise 3: Membagi dan meledakkan kolom teks Exercise 4: Menggunakan monotonically_increasing_id()Exercise 5: Analisis jendela bergerak Exercise 6: Membuat data fitur jendela konteks

Latihan Saat Ini

Exercise 7: Melakukan repartition pada data Exercise 8: Urutan kata umum Exercise 9: Jenis data apakah ini Exercise 10: Menemukan urutan kata yang umum Exercise 11: 5-tuple unik dalam urutan terurut Exercise 12: 3-tuple tersering per bab

Pada bab-bab sebelumnya Anda telah belajar memanfaatkan ekspresivitas window function SQL. Namun, ekspresivitas ini menjadikan pemahaman cara melakukan cache dataframe dan cache tabel SQL dengan benar semakin penting. Penting juga untuk mengetahui cara mengevaluasi aplikasi Anda. Anda akan mempelajarinya menggunakan Spark UI. Anda juga akan mempelajari praktik terbaik untuk logging di Spark. Spark SQL menghadirkan alat bermanfaat lain untuk menyetel kinerja kueri, yaitu rencana eksekusi kueri. Anda akan belajar menggunakan rencana eksekusi untuk mengevaluasi asal-usul (provenance) sebuah dataframe.

Exercise 1: Caching Exercise 2: Latihan caching: bagian 1 Exercise 3: Berlatih caching: SQL Exercise 4: Latihan caching: menggabungkan semuanya Exercise 5: Melakukan cache dan menghapus cache tabel Exercise 6: Spark UI Exercise 7: Tab storage di Spark UI Exercise 8: Memeriksa cache di Spark UI Exercise 9: Pencatatan (Logging)Exercise 10: Latihan logging Exercise 11: Latihan logging 2 Exercise 12: Rencana kueri Exercise 13: Latihan rencana kueri Exercise 14: Latihan membaca rencana kueri 2

Bab-bab sebelumnya membekali Anda dengan alat untuk memuat teks mentah, melakukan tokenisasi, dan mengekstrak urutan kata. Ini sudah sangat berguna untuk analisis, dan juga bermanfaat untuk Machine Learning. Semua yang telah Anda pelajari kini dipadukan dengan menggunakan logistic regression untuk mengklasifikasikan teks. Pada akhir bab ini, Anda akan telah memuat data teks bahasa alami mentah dan menggunakannya untuk melatih sebuah pengklasifikasi teks.

Exercise 1: Extract Transform Select Exercise 2: Latihan membuat UDF Exercise 3: Latihan kolom array Exercise 4: Membuat data fitur untuk klasifikasi Exercise 5: Membuat UDF untuk data vektor Exercise 6: Menerapkan UDF pada data vektor Exercise 7: Mengonversi teks ke format vektor Exercise 8: Klasifikasi Teks Exercise 9: Memberi label pada data Exercise 10: Membagi data Exercise 11: Latih pengklasifikasi Exercise 12: Memprediksi dan mengevaluasi Exercise 13: Evaluasi classifier Exercise 14: Prediksi data uji Exercise 15: Rekap