In this chapter, you'll learn how Spark manages data and how can you read and write tables from Python.

Peki Spark nedir?

Python'da Spark kullanma

SparkContext'i İncelemek

DataFrame'leri Kullanma

Bir SparkSession Oluşturma

Tabloları görüntüleme

Sorgu meraklısı mısın?

Bir Spark DataFrame'ini pandas'a dönüştür

Verine biraz Spark kat

Aradaki aracı kaldırmak

Getting to know PySpark

In this chapter, you'll learn about the pyspark.sql module, which provides optimized data queries to your Spark session.

Creating columns

SQL in a nutshell

SQL in a nutshell (2)

Filtering Data

Selecting

Selecting II

Aggregating

Aggregating II

Grouping and Aggregating I

Grouping and Aggregating II

Joining

Joining II

Manipulating data

PySpark has built-in, cutting-edge machine learning routines, along with utilities to create full machine learning pipelines. You'll learn about them in this chapter.

Machine Learning Pipelines

Join the DataFrames

Data types

String to integer

Create a new column

Making a Boolean

Strings and factors

Carrier

Destination

Assemble a vector

Create the pipeline

Test vs. Train

Transform the data

Split the data

Getting started with machine learning pipelines

In this last chapter, you'll apply what you've learned to create a model that predicts which flights will be delayed.

What is logistic regression?

Create the modeler

Cross validation

Create the evaluator

Make a grid

Make the validator

Fit the model(s)

Evaluating binary classifiers

Evaluate the model

Model tuning and selection

Airports

Flights

Planes

Bu derste, Spark'ı Python'dan nasıl kullanacağını öğreneceksin! Spark, büyük veri kümeleriyle paralel hesaplama yapmak için kullanılan bir araçtır ve Python ile çok iyi entegre olur. PySpark ise bu sihri mümkün kılan Python paketidir. Bu paketi kullanarak Portland ve Seattle'dan kalkış yapan uçuşlara ait verilerle çalışacaksın. Bu verileri düzenlemeyi öğrenecek ve uçuşların gecikip gecikmeyeceğini tahmin etmek için uçtan uca bir Machine Learning işlem hattı kuracaksın. Python koduna biraz Spark katmaya ve yüksek performanslı Machine Learning dünyasına dalmaya hazır ol!

Introduction to Python

PySpark ile veri işleyip makine öğrenimi hattı kurarak tahmin yapmayı öğrenin. Gerçek verilerle çalışın.

PySpark Temelleri

PySpark paketini kullanarak Spark'ta dağıtılmış veri yönetimi ve makine öğrenimini uygulamayı öğrenin.

DataFrame'leri Kullanma

PySpark Temelleri

Uygulamalı interaktif egzersiz