In this chapter, you'll learn how Spark manages data and how can you read and write tables from Python.

Sebenarnya, apa itu Spark?

Menggunakan Spark di Python

Mengenal SparkContext

Menggunakan DataFrame

Membuat SparkSession

Melihat tabel

Apakah Anda penasaran dengan kueri?

Ubah DataFrame Spark menjadi pandas

Tambahkan sedikit Spark pada data Anda

Menghapus perantara

Getting to know PySpark

In this chapter, you'll learn about the pyspark.sql module, which provides optimized data queries to your Spark session.

Creating columns

SQL in a nutshell

SQL in a nutshell (2)

Filtering Data

Selecting

Selecting II

Aggregating

Aggregating II

Grouping and Aggregating I

Grouping and Aggregating II

Joining

Joining II

Manipulating data

PySpark has built-in, cutting-edge machine learning routines, along with utilities to create full machine learning pipelines. You'll learn about them in this chapter.

Machine Learning Pipelines

Join the DataFrames

Data types

String to integer

Create a new column

Making a Boolean

Strings and factors

Carrier

Destination

Assemble a vector

Create the pipeline

Test vs. Train

Transform the data

Split the data

Getting started with machine learning pipelines

In this last chapter, you'll apply what you've learned to create a model that predicts which flights will be delayed.

What is logistic regression?

Create the modeler

Cross validation

Create the evaluator

Make a grid

Make the validator

Fit the model(s)

Evaluating binary classifiers

Evaluate the model

Model tuning and selection

Airports

Flights

Planes

Dalam kursus ini, Anda akan mempelajari cara menggunakan Spark dari Python! Spark adalah alat untuk melakukan komputasi paralel dengan himpunan data berukuran besar dan terintegrasi dengan baik dengan Python. PySpark adalah paket Python yang mewujudkannya. Anda akan menggunakan paket ini untuk bekerja dengan data penerbangan dari Portland dan Seattle. Anda akan mempelajari cara mengolah data ini dan membangun keseluruhan pipeline Machine Learning untuk memprediksi apakah penerbangan akan tertunda atau tidak. Bersiaplah untuk menambahkan Spark ke kode Python Anda dan menyelami dunia Machine Learning berkinerja tinggi!

Introduction to Python

Pelajari pengolahan data dan bangun pipeline machine learning dengan PySpark. Latih keterampilanmu.

Dasar-Dasar PySpark

Pelajari cara mengimplementasikan manajemen data terdistribusi dan machine learning di Spark menggunakan paket PySpark.

Menggunakan DataFrame

Dasar-Dasar PySpark

Latihan interaktif praktis