Di bab ini, Anda akan mempelajari bagaimana Spark mengelola data serta bagaimana Anda dapat membaca dan menulis tabel dari Python.

Sebenarnya, apa itu Spark?

Menggunakan Spark di Python

Mengenal SparkContext

Menggunakan DataFrame

Membuat SparkSession

Melihat tabel

Apakah Anda penasaran dengan kueri?

Ubah DataFrame Spark menjadi pandas

Tambahkan sedikit Spark pada data Anda

Menghapus perantara

Mengenal PySpark

Di bab ini, Anda akan mempelajari modul pyspark.sql, yang menyediakan kueri data teroptimasi untuk sesi Spark Anda.

Membuat kolom

Sekilas tentang SQL

SQL secara ringkas (2)

Menyaring Data

Memilih

Selecting II

Agregasi

Agregasi II

Pengelompokan dan Agregasi I

Pengelompokan dan Agregasi II

Melakukan join

Penggabungan II

Memanipulasi data

PySpark memiliki rutin Machine Learning bawaan yang mutakhir, beserta utilitas untuk membuat pipeline Machine Learning lengkap. Anda akan mempelajarinya di bab ini.

Machine Learning Pipelines

Menggabungkan DataFrame

Tipe data

String ke integer

Buat kolom baru

Membuat Boolean

String dan faktor

Carrier

Tujuan

Menyusun sebuah vektor

Buat pipeline

Test vs. Train

Transformasikan data

Bagi himpunan data

Memulai dengan pipeline Machine Learning

Di bab terakhir ini, Anda akan menerapkan yang telah dipelajari untuk membuat model yang memprediksi penerbangan mana yang akan tertunda.

Apa itu logistic regression?

Buat pemodel

Cross validation

Buat evaluator

Buat sebuah grid

Buat validator

Latih model

Mengevaluasi pengklasifikasi biner

Evaluasi model

Penyetelan dan pemilihan model

Airports

Flights

Planes

Dalam kursus ini, Anda akan mempelajari cara menggunakan Spark dari Python! Spark adalah alat untuk melakukan komputasi paralel dengan himpunan data berukuran besar dan terintegrasi dengan baik dengan Python. PySpark adalah paket Python yang mewujudkannya. Anda akan menggunakan paket ini untuk bekerja dengan data penerbangan dari Portland dan Seattle. Anda akan mempelajari cara mengolah data ini dan membangun keseluruhan pipeline Machine Learning untuk memprediksi apakah penerbangan akan tertunda atau tidak. Bersiaplah untuk menambahkan Spark ke kode Python Anda dan menyelami dunia Machine Learning berkinerja tinggi!

Introduction to Python

Pelajari pengolahan data dan bangun pipeline machine learning dengan PySpark. Latih keterampilanmu.

Dasar-Dasar PySpark

Pelajari cara mengimplementasikan manajemen data terdistribusi dan machine learning di Spark menggunakan paket PySpark.

Machine Learning Pipelines

Dasar-Dasar PySpark

Latihan interaktif langsung