Pengantar umum tentang PySpark dan komputasi terdistribusi. Bagian ini memperkenalkan PySpark, PySpark DataFrame, dan RDD.

Pengantar PySpark

Membuat SparkSession

Memuat data sensus

Pengenalan PySpark DataFrame

Skalabilitas dan kinerja

Membaca CSV dan melakukan agregasi

Menyaring berdasarkan perusahaan

Lebih Lanjut tentang Spark DataFrame

Infer dan filter

Penulisan skema

Pengantar Apache Spark dan PySpark

Kelanjutan DataFrame dan tipe data kompleks. Bagian ini memperluas fitur yang ditawarkan DataFrame di PySpark dan memperkenalkan beberapa konsep Spark SQL.

Manipulasi data dengan DataFrame

Menangani data hilang dengan fill dan drop

Operasi kolom - membuat dan mengganti nama kolom

Operasi DataFrame Lanjutan

Kombinasi DataFrame

Menggabungkan flights dengan bandara tujuannya

Anda yang mendefinisikan? Anda yang menggunakan!

UDF didefinisikan

Integer dalam UDF PySpark

Pandas UDF

PySpark di Python

Mendalami pemanfaatan Spark SQL dan PySpark untuk pemrosesan data yang dapat diskalakan, menggabungkan kesederhanaan SQL dengan kekuatan komputasi terdistribusi PySpark untuk menangani himpunan data besar secara efisien.

Himpunan data terdistribusi tangguh (Resilient Distributed Datasets) di PySpark

Membuat RDD

Mengumpulkan RDD

Pengantar Spark SQL

Melakukan kueri pada temp view

Menjalankan SQL pada DataFrame

Analitik dengan SQL pada DataFrame

Agregasi PySpark

Agregasi di PySpark

Agregasi di RDD

Agregasi Kompleks

PySpark dalam skala besar

Broadcasting

Menggabungkan semuanya I

Menggabungkan semuanya II

Apa yang telah kita pelajari?

Pengantar PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Kursus ini dirancang untuk data engineer, data scientist, dan praktisi Machine Learning yang ingin bekerja dengan himpunan data berukuran besar menggunakan PySpark. Anda akan mengeksplorasi kecepatan dan skalabilitas Apache Spark, mempelajari cara membuat sesi Spark, bekerja dengan RDD, serta memanipulasi DataFrame melalui latihan praktik. Kursus ini juga membahas PySpark SQL, mengajarkan Anda cara melakukan kueri data dengan SQL, menangani skema dan tipe data kompleks, serta mengoptimalkan kinerja di lingkungan terdistribusi. Pada akhir kursus, Anda akan memiliki keterampilan dasar untuk memroses dan menganalisis big data, sebagai landasan untuk aplikasi lanjutan seperti Machine Learning dan analitik big data.

Video berisi transkrip langsung yang dapat Anda tampilkan dengan mengeklik "Show transcript" di kiri bawah video.
Glosarium kursus dapat ditemukan di sebelah kanan pada bagian resources.
Untuk memperoleh kredit CPE, Anda perlu menyelesaikan kursus dan mencapai skor 70% pada asesmen yang memenuhi syarat. Anda dapat menuju ke asesmen dengan mengeklik kotak informasi CPE credits di sebelah kanan.

Kursus ini sangat cocok untuk insinyur data, ilmuwan data, dan praktisi machine learning yang ingin bekerja dengan dataset besar secara efisien. Baik Anda sedang beralih dari alat seperti Pandas atau baru pertama kali menjelajahi teknologi big data, kursus ini menawarkan pengenalan yang kokoh tentang PySpark dan pemrosesan data terdistribusi.<br><br>
<h2>Mengapa Spark? Mengapa Sekarang?</h2>
Temukan kecepatan dan skalabilitas Apache Spark, kerangka kerja yang kuat yang dirancang untuk mengelola data besar. Melalui pelajaran interaktif dan latihan praktis, Anda akan melihat bagaimana pemrosesan in-memory Spark memberikan keunggulan dibandingkan kerangka kerja tradisional seperti Hadoop. Anda akan memulai dengan menyiapkan sesi Spark dan mempelajari komponen inti seperti Resilient Distributed Datasets (RDDs) dan DataFrames. Pelajari cara menyaring, mengelompokkan, dan menggabungkan dataset dengan mudah sambil bekerja pada contoh-contoh dunia nyata.<br><br>
<h2>Tingkatkan Keterampilan Python dan SQL Anda untuk Big Data</h2>
Pelajari cara memanfaatkan PySpark SQL untuk melakukan kueri dan mengelola data menggunakan sintaks SQL yang familiar. Mengatasi skema data, tipe data kompleks, dan fungsi yang didefinisikan pengguna (UDF), sambil mengembangkan keterampilan dalam caching dan mengoptimalkan kinerja untuk sistem terdistribusi.<br><br>
<h2>Bangun Fondasi Big Data Anda</h2>
Pada akhir kursus ini, Anda akan memiliki kepercayaan diri untuk mengelola, menganalisis, dan memproses data besar menggunakan PySpark. Dengan keterampilan dasar ini, Anda akan siap untuk menjelajahi topik-topik lanjutan seperti machine learning dan analisis big data.

Introduction to SQL

Data Manipulation with pandas

Kuasi PySpark untuk menangani big data dengan mudah—pelajari cara memproses, kueri, dan optimalkan data besar!

Kuasai PySpark untuk kelola big data dengan mudah—pelajari proses, mengambil, dan optimalkan dataset besar untuk analitik ampuh!

Associate Data Engineer in Databricks

Big Data dengan PySpark

Ilmuwan Pembelajaran Mesin dalam Python

Insinyur Data Profesional dalam Python

Variable	Description
age	Usia individu
education_num	Pendidikan berdasarkan gelar
marital_status	Status pernikahan
occupation	Pekerjaan
income	Pendapatan kategorikal

Penulisan skema

Pengantar PySpark

Instruksi latihan

Latihan interaktif langsung praktik