A review of DataFrame fundamentals and the importance of data cleaning.

Apache Spark ile veri temizlemeye giriş

Veri temizleme değerlendirmesi

Bir şema tanımlama

Değiştirilemezlik ve tembel işlemeye giriş

Değişmezlik (immutability) özeti

Lazy işlemeyi kullanma

Parquet’i Anlamak

Bir DataFrame'i Parquet formatında kaydetme

SQL ve Parquet

DataFrame details

A look at various techniques to modify the contents of DataFrames in Spark.

DataFrame column operations

Filtering column content with Python

Filtering Question #1

Filtering Question #2

Modifying DataFrame columns

Conditional DataFrame column operations

when() example

When / Otherwise

User defined functions

Understanding user defined functions

Using user defined functions in Spark

Partitioning and lazy processing

Adding an ID Field

IDs with different partitions

More ID tricks

Manipulating DataFrames in the real world

Improve data cleaning tasks by increasing performance or reducing resource requirements.

Caching

Caching a DataFrame

Removing a DataFrame from cache

Improve import performance

File size optimization

File import performance

Cluster configurations

Reading Spark configurations

Writing Spark configurations

Performance improvements

Normal joins

Using broadcasting on Spark joins

Comparing broadcast vs normal joins

Improving Performance

Learn how to process complex real-world data using Spark and the basics of pipelines.

Introduction to data pipelines

Quick pipeline

Pipeline data issue

Data handling techniques

Removing commented lines

Removing invalid rows

Splitting into columns

Further parsing

Data validation

Validate rows via join

Examining invalid rows

Final analysis and delivery

Dog parsing

Per image count

Percentage dog pixels

Congratulations and next steps

Complex processing and data pipelines

Dallas Council Votes

Dallas Council Voters

Flights - 2014

Flights - 2015

Flights - 2016

Flights - 2017

Veriyle çalışmak zordur — milyonlarca hatta milyarlarca satırla çalışmak daha da zordur.
Oldukça temiz bir veriyle, bir dizüstünde yazılmış veri işleme kodu mu eline geçti?
Büyük olasılıkla basit bir veri sürecini prototipten üretime taşımak sana verildi.
Eksik alanlar, tuhaf biçimlendirmeler ve katbekat daha fazla veri içeren gerçek dünya veri kümeleriyle çalışmış olabilirsin. Bunların hepsi yeni bile olsa, bu kurs Python ve Apache Spark kullanarak veri süreçlerini hazırlamak için gerekenleri öğrenmene yardımcı olur.
Terimleri, yöntemleri ve en iyi uygulamaların bir kısmını öğrenerek yüksek performanslı, sürdürülebilir ve anlaşılır bir veri işleme platformu oluşturmayı öğreneceksin.

Intermediate Python

Introduction to PySpark

PySpark ile Python'da DataFrame ve veri hatları kullanarak verilerinizi temizlemeyi öğrenin.

PySpark ile Veri Temizleme

Python'da Apache Spark ile verileri temizlemeyi öğrenin.

PySpark ile Büyük Veri

SQL ve Parquet

PySpark ile Veri Temizleme

Egzersiz talimatları

Uygulamalı interaktif egzersiz