Oefenen met kolommen van het type array

De SQL-functie udf is beschikbaar, evenals een dataframe df_before van het type DataFrame[doc: array<string>, in: array<string>, out: array<string>].

De variabele TRIVIAL_TOKENS is een set. Deze bevat bepaalde woorden die we willen verwijderen.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Oefeninstructies

Toon de rijen van df_before waar doc het item 5 bevat.
Maak een udf die items in TRIVIAL_TOKENS uit een array-kolom verwijdert. De volgorde hoeft niet behouden te blijven.
Verwijder tokens uit de kolommen in en out in df2 die voorkomen in TRIVIAL_TOKENS.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Show the rows where doc contains the item '5'
df_before.where(array_contains('doc', '____')).show()

# UDF removes items in TRIVIAL_TOKENS from array
rm_trivial_udf = udf(lambda x:
                     list(set(x) - ____) if x
                     else x,
                     ArrayType(____()))

# Remove trivial tokens from 'in' and 'out' columns of df2
df_after = df_before.withColumn('in', ____('in'))\
                    .withColumn('out', ____('out'))

# Show the rows of df_after where doc contains the item '5'
df_after.where(array_contains('doc','5')).show()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je een SQL-tabel in Spark maakt en bevraagt. Spark SQL brengt de expressiviteit van SQL naar Spark. Je leert ook hoe je SQL-windowfuncties in Spark gebruikt. Windowfuncties voeren een berekening uit over rijen die gerelateerd zijn aan de huidige rij. Ze maken het veel eenvoudiger om resultaten te bereiken die lastig zijn met alleen joins en traditionele aggregaties. We gebruiken windowfuncties voor lopende sommen, lopende verschillen en andere bewerkingen die in basis-SQL uitdagend zijn.

Exercise 1: Een SQL-tabel maken en bevragen in Spark Exercise 2: Maak een SQL-tabel van een dataframe Exercise 3: Bepaal de kolomnamen van een tabel Exercise 4: Windowfunctie-SQL Exercise 5: Voortschrijdende sommen met windowfunctie-SQL Exercise 6: Repareer de kapotte query Exercise 7: Puntnotatie en SQL Exercise 8: Aggregatie, stap voor stap Exercise 9: Dezelfde kolom twee keer aggregeren Exercise 10: Aggregatie met dot-SQL Exercise 11: Zet een windowfunctie om van dotnotatie naar SQL

In dit hoofdstuk laad je tekst uit natuurlijke taal. Daarna pas je een schuivend-vensteranalyse toe om frequente woordreeksen te vinden.

Exercise 1: Natuurlijke taaltekst laden Exercise 2: Een dataframe laden uit een parquet-bestand Exercise 3: Splits en explodeer een tekstkolom Exercise 4: monotonically_increasing_id() gebruiken Exercise 5: Analyse met een schuivend venster Exercise 6: Contextvenster-featuredata maken Exercise 7: De data opnieuw partitioneren Exercise 8: Veelvoorkomende woordreeksen Exercise 9: Wat voor type gegevens is dit Exercise 10: Veelvoorkomende woordreeksen vinden Exercise 11: Unieke 5-tuplets in gesorteerde volgorde Exercise 12: Meest frequente 3-tuples per hoofdstuk

In de vorige hoofdstukken leerde je hoe je de expressiviteit van windowfunction-SQL gebruikt. Die expressiviteit maakt het nu belangrijk dat je begrijpt hoe je DataFrames en SQL-tabellen op de juiste manier cachet. Het is ook belangrijk om te weten hoe je je applicatie evalueert. Je leert dit doen met de Spark UI. Je leert ook een best practice voor loggen in Spark. Spark SQL biedt nog een handig hulpmiddel voor het afstemmen van queryprestatieproblemen: het query-executieplan. Je leert hoe je het executieplan gebruikt om de herkomst van een dataframe te beoordelen.

Exercise 1: Cachen Exercise 2: Oefenen met cachen: deel 1 Exercise 3: Oefenen met cachen: de SQL Exercise 4: Oefenen met cachen: alles bij elkaar brengen Exercise 5: Tabellen cachen en uit de cache halen Exercise 6: De Spark UI Exercise 7: Spark UI-tabblad Storage Exercise 8: Cache inspecteren in de Spark UI Exercise 9: Loggen Exercise 10: Oefenen met logging Exercise 11: Oefenen met loggen 2 Exercise 12: Queryplannen Exercise 13: Oefenen met queryplannen Exercise 14: Oefen met het lezen van queryplannen 2

In eerdere hoofdstukken heb je geleerd hoe je ruwe tekst laadt, tokenized en woordreeksen extraheert. Dat is al erg nuttig voor analyse, maar ook voor Machine Learning. Alles wat je hebt geleerd komt nu samen met logistieke regressie om tekst te classificeren. Aan het einde van dit hoofdstuk heb je ruwe tekst uit natuurlijke taal geladen en gebruikt om een tekstclassificatie te trainen.

Exercise 1: Extract Transform Select Exercise 2: Oefenen met het maken van een UDF Exercise 3: Oefenen met kolommen van het type array

Huidige oefening

Exercise 4: Featuregegevens maken voor classificatie Exercise 5: Een UDF maken voor vectordata Exercise 6: Een UDF toepassen op vectorgegevens Exercise 7: Tekst omzetten naar vectorformaat Exercise 8: Tekstclassificatie Exercise 9: Voorzie de data van labels Exercise 10: Splits de data Exercise 11: Train de classifier Exercise 12: Voorspellen en evalueren Exercise 13: Evalueer de classifier Exercise 14: Voorspel testgegevens Exercise 15: Samenvatting