Een herhaling van de basis van DataFrames en het belang van data opschonen.

Introductie tot data opschonen met Apache Spark

Herhaling: data opschonen

Een schema definiëren

Immutabiliteit en lui verwerken

Herhaling: onveranderlijkheid

Lui verwerken gebruiken

Parquet begrijpen

Een DataFrame opslaan in Parquet-indeling

SQL en Parquet

DataFrame-details

Een blik op verschillende technieken om de inhoud van DataFrames in Spark te wijzigen.

Bewerkingen op DataFrame-kolommen

Kolominhoud filteren met Python

Filtervraag #1

Filtervraag #2

DataFrame-kolommen aanpassen

Voorwaardelijke bewerkingen op DataFrame-kolommen

when()-voorbeeld

When / Otherwise

Door de gebruiker gedefinieerde functies

Inzicht in user defined functions

User Defined Functions gebruiken in Spark

Partitioneren en lui verwerken

Een ID-veld toevoegen

ID's met verschillende partities

Meer ID-trucs

DataFrames bewerken in de praktijk

Verbeter taken voor het opschonen van data door prestaties te verhogen of het middelengebruik te verlagen.

Cachen

Een DataFrame cachen

Een DataFrame uit de cache verwijderen

Importprestatie verbeteren

Bestandsgrootte optimaliseren

Prestaties van bestandsimport

Clusterconfiguraties

Spark-configuraties uitlezen

Spark-configuraties schrijven

Prestatieverbeteringen

Normale joins

Broadcasting gebruiken bij Spark-joins

Broadcast-joins versus normale joins vergelijken

Prestaties verbeteren

Leer complexe, realistische data verwerken met Spark en de basis van pijplijnen.

Introductie tot datapijplijnen

Snelle pipeline

Probleem met pijplijndata

Technieken voor gegevensverwerking

Commentaarregels verwijderen

Ongeldige rijen verwijderen

Splitsen in kolommen

Verder parsen

Gegevensvalidatie

Rijen valideren via join

Ongeldige rijen onderzoeken

Definitieve analyse en oplevering

Honden parsen

Aantal per afbeelding

Percentage hondpixels

Gefeliciteerd en de volgende stappen

Complexe verwerking en datapijplijnen

Dallas Council Votes

Dallas Council Voters

Flights - 2014

Flights - 2015

Flights - 2016

Flights - 2017

Werken met data is lastig — werken met miljoenen of zelfs miljarden rijen is nog lastiger.
Heb je verwerkingscode gekregen die op een laptop is geschreven met vrij schone data?
Grote kans dat jij nu verantwoordelijk bent om een basisproces van prototype naar productie te brengen.
Misschien heb je gewerkt met echte gegevenssets, met ontbrekende velden, bizarre opmaak en ordes van grootte meer data. Ook als dit allemaal nieuw voor je is, helpt deze cursus je te leren wat je nodig hebt om dataprocessen voor te bereiden met Python en Apache Spark.
Je leert terminologie, methoden en een aantal best practices om een performante, onderhoudbare en begrijpelijke gegevensverwerkingsomgeving te bouwen.

Intermediate Python

Introduction to PySpark

Leer hoe je PySpark gebruikt om data te reinigen in Python met DataFrames en datastromen.

Data opschonen met PySpark

Big Data met PySpark

Bestandsgrootte optimaliseren

Data opschonen met PySpark

Interactieve oefening met praktijkervaring