Oefenen met cachen: de SQL

Eerder bekeken we twee DataFrames: df1 en df2 (dat is afgeleid van df1). We probeerden df1 te cachen, maar niet df2. In deze oefening bekijken we wat er gebeurt als je df2 cachet, maar niet df1.

Let opnieuw op de tijd die elke actie kost. We vergelijken deze in de volgende oefening. Welke taken worden sneller? Welke juist langzamer?

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Oefeninstructies

Cache df2, maar niet df1.
Voer een eerste actie uit op df1 en herhaal die, voer dan een actie uit op df2 en herhaal die. Dit is al voor je gedaan.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je een SQL-tabel in Spark maakt en bevraagt. Spark SQL brengt de expressiviteit van SQL naar Spark. Je leert ook hoe je SQL-windowfuncties in Spark gebruikt. Windowfuncties voeren een berekening uit over rijen die gerelateerd zijn aan de huidige rij. Ze maken het veel eenvoudiger om resultaten te bereiken die lastig zijn met alleen joins en traditionele aggregaties. We gebruiken windowfuncties voor lopende sommen, lopende verschillen en andere bewerkingen die in basis-SQL uitdagend zijn.

Exercise 1: Een SQL-tabel maken en bevragen in Spark Exercise 2: Maak een SQL-tabel van een dataframe Exercise 3: Bepaal de kolomnamen van een tabel Exercise 4: Windowfunctie-SQL Exercise 5: Voortschrijdende sommen met windowfunctie-SQL Exercise 6: Repareer de kapotte query Exercise 7: Puntnotatie en SQL Exercise 8: Aggregatie, stap voor stap Exercise 9: Dezelfde kolom twee keer aggregeren Exercise 10: Aggregatie met dot-SQL Exercise 11: Zet een windowfunctie om van dotnotatie naar SQL

In dit hoofdstuk laad je tekst uit natuurlijke taal. Daarna pas je een schuivend-vensteranalyse toe om frequente woordreeksen te vinden.

Exercise 1: Natuurlijke taaltekst laden Exercise 2: Een dataframe laden uit een parquet-bestand Exercise 3: Splits en explodeer een tekstkolom Exercise 4: monotonically_increasing_id() gebruiken Exercise 5: Analyse met een schuivend venster Exercise 6: Contextvenster-featuredata maken Exercise 7: De data opnieuw partitioneren Exercise 8: Veelvoorkomende woordreeksen Exercise 9: Wat voor type gegevens is dit Exercise 10: Veelvoorkomende woordreeksen vinden Exercise 11: Unieke 5-tuplets in gesorteerde volgorde Exercise 12: Meest frequente 3-tuples per hoofdstuk

In de vorige hoofdstukken leerde je hoe je de expressiviteit van windowfunction-SQL gebruikt. Die expressiviteit maakt het nu belangrijk dat je begrijpt hoe je DataFrames en SQL-tabellen op de juiste manier cachet. Het is ook belangrijk om te weten hoe je je applicatie evalueert. Je leert dit doen met de Spark UI. Je leert ook een best practice voor loggen in Spark. Spark SQL biedt nog een handig hulpmiddel voor het afstemmen van queryprestatieproblemen: het query-executieplan. Je leert hoe je het executieplan gebruikt om de herkomst van een dataframe te beoordelen.

Exercise 1: Cachen Exercise 2: Oefenen met cachen: deel 1 Exercise 3: Oefenen met cachen: de SQL

Huidige oefening

Exercise 4: Oefenen met cachen: alles bij elkaar brengen Exercise 5: Tabellen cachen en uit de cache halen Exercise 6: De Spark UI Exercise 7: Spark UI-tabblad Storage Exercise 8: Cache inspecteren in de Spark UI Exercise 9: Loggen Exercise 10: Oefenen met logging Exercise 11: Oefenen met loggen 2 Exercise 12: Queryplannen Exercise 13: Oefenen met queryplannen Exercise 14: Oefen met het lezen van queryplannen 2

In eerdere hoofdstukken heb je geleerd hoe je ruwe tekst laadt, tokenized en woordreeksen extraheert. Dat is al erg nuttig voor analyse, maar ook voor Machine Learning. Alles wat je hebt geleerd komt nu samen met logistieke regressie om tekst te classificeren. Aan het einde van dit hoofdstuk heb je ruwe tekst uit natuurlijke taal geladen en gebruikt om een tekstclassificatie te trainen.

Exercise 1: Extract Transform Select Exercise 2: Oefenen met het maken van een UDF Exercise 3: Oefenen met kolommen van het type array Exercise 4: Featuregegevens maken voor classificatie Exercise 5: Een UDF maken voor vectordata Exercise 6: Een UDF toepassen op vectorgegevens Exercise 7: Tekst omzetten naar vectorformaat Exercise 8: Tekstclassificatie Exercise 9: Voorzie de data van labels Exercise 10: Splits de data Exercise 11: Train de classifier Exercise 12: Voorspellen en evalueren Exercise 13: Evalueer de classifier Exercise 14: Voorspel testgegevens Exercise 15: Samenvatting