A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.

Introduction to PySpark

Creating a SparkSession

Loading census data

Introduction to PySpark DataFrames

Scalability and performance

Reading a CSV and performing aggregations

Filtering by company

More on Spark DataFrames

Infer and filter

Schema writeout

Introduction to Apache Spark and PySpark

A continuation of DataFrames and complex datatypes. This section expands on what DataFrames offer in PySpark and introduces some Spark SQL concepts.

Data manipulation with DataFrames

Handling missing data with fill and drop

Column operations - creating and renaming columns

Advanced DataFrame operations

DataFrame combinations

Joining flights with their destination airports

U define it? U use it!

UDF defined

Integers in PySpark UDFs

Pandas UDFs

PySpark in Python

Delve into leveraging Spark SQL and PySpark for scalable data processing, combining SQL's simplicity with PySpark's distributed computing power to handle large datasets efficiently.

Himpunan data terdistribusi tangguh (Resilient Distributed Datasets) di PySpark

Membuat RDD

Mengumpulkan RDD

Pengantar Spark SQL

Melakukan kueri pada temp view

Menjalankan SQL pada DataFrame

Analitik dengan SQL pada DataFrame

Agregasi PySpark

Agregasi di PySpark

Agregasi di RDD

Agregasi Kompleks

PySpark dalam skala besar

Broadcasting

Menggabungkan semuanya I

Menggabungkan semuanya II

Apa yang telah kita pelajari?

Introduction to PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Kursus ini dirancang untuk data engineer, data scientist, dan praktisi Machine Learning yang ingin bekerja dengan himpunan data berukuran besar menggunakan PySpark. Anda akan mengeksplorasi kecepatan dan skalabilitas Apache Spark, mempelajari cara membuat sesi Spark, bekerja dengan RDD, serta memanipulasi DataFrame melalui latihan praktik. Kursus ini juga membahas PySpark SQL, mengajarkan Anda cara melakukan kueri data dengan SQL, menangani skema dan tipe data kompleks, serta mengoptimalkan kinerja di lingkungan terdistribusi. Pada akhir kursus, Anda akan memiliki keterampilan dasar untuk memroses dan menganalisis big data, sebagai landasan untuk aplikasi lanjutan seperti Machine Learning dan analitik big data.

Video berisi transkrip langsung yang dapat Anda tampilkan dengan mengeklik "Show transcript" di kiri bawah video.
Glosarium kursus dapat ditemukan di sebelah kanan pada bagian resources.
Untuk memperoleh kredit CPE, Anda perlu menyelesaikan kursus dan mencapai skor 70% pada asesmen yang memenuhi syarat. Anda dapat menuju ke asesmen dengan mengeklik kotak informasi CPE credits di sebelah kanan.

Kursus ini sangat cocok untuk insinyur data, ilmuwan data, dan praktisi machine learning yang ingin bekerja dengan dataset besar secara efisien. Baik Anda sedang beralih dari alat seperti Pandas atau baru pertama kali menjelajahi teknologi big data, kursus ini menawarkan pengenalan yang kokoh tentang PySpark dan pemrosesan data terdistribusi.<br><br>
<h2>Mengapa Spark? Mengapa Sekarang?</h2>
Temukan kecepatan dan skalabilitas Apache Spark, kerangka kerja yang kuat yang dirancang untuk mengelola data besar. Melalui pelajaran interaktif dan latihan praktis, Anda akan melihat bagaimana pemrosesan in-memory Spark memberikan keunggulan dibandingkan kerangka kerja tradisional seperti Hadoop. Anda akan memulai dengan menyiapkan sesi Spark dan mempelajari komponen inti seperti Resilient Distributed Datasets (RDDs) dan DataFrames. Pelajari cara menyaring, mengelompokkan, dan menggabungkan dataset dengan mudah sambil bekerja pada contoh-contoh dunia nyata.<br><br>
<h2>Tingkatkan Keterampilan Python dan SQL Anda untuk Big Data</h2>
Pelajari cara memanfaatkan PySpark SQL untuk melakukan kueri dan mengelola data menggunakan sintaks SQL yang familiar. Mengatasi skema data, tipe data kompleks, dan fungsi yang didefinisikan pengguna (UDF), sambil mengembangkan keterampilan dalam caching dan mengoptimalkan kinerja untuk sistem terdistribusi.<br><br>
<h2>Bangun Fondasi Big Data Anda</h2>
Pada akhir kursus ini, Anda akan memiliki kepercayaan diri untuk mengelola, menganalisis, dan memproses data besar menggunakan PySpark. Dengan keterampilan dasar ini, Anda akan siap untuk menjelajahi topik-topik lanjutan seperti machine learning dan analisis big data.

Introduction to SQL

Data Manipulation with pandas

Kuasi PySpark untuk menangani big data dengan mudah—pelajari cara memproses, kueri, dan optimalkan data besar!

Pengantar PySpark

Kuasai PySpark untuk kelola big data dengan mudah—pelajari proses, mengambil, dan optimalkan dataset besar untuk analitik ampuh!

Associate Data Engineer in Databricks

Big Data dengan PySpark

Ilmuwan Pembelajaran Mesin dalam Python

Insinyur Data Profesional dalam Python

Mengumpulkan RDD

Pengantar PySpark

Petunjuk latihan

Latihan interaktif praktis