Splits de data

Er is een dataframe df_examples beschikbaar met de kolommen endword: string, features: vector, outvec: vector en label: int. Je gaat dit splitsen om een training- en testset te krijgen, die je gebruikt om een classifier te trainen en te testen.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Oefeninstructies

Splits de voorbeelden in train en test met een 80/20-verdeling.
Print het aantal trainingsvoorbeelden.
Print het aantal testvoorbeelden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je een SQL-tabel in Spark maakt en bevraagt. Spark SQL brengt de expressiviteit van SQL naar Spark. Je leert ook hoe je SQL-windowfuncties in Spark gebruikt. Windowfuncties voeren een berekening uit over rijen die gerelateerd zijn aan de huidige rij. Ze maken het veel eenvoudiger om resultaten te bereiken die lastig zijn met alleen joins en traditionele aggregaties. We gebruiken windowfuncties voor lopende sommen, lopende verschillen en andere bewerkingen die in basis-SQL uitdagend zijn.

Exercise 1: Een SQL-tabel maken en bevragen in Spark Exercise 2: Maak een SQL-tabel van een dataframe Exercise 3: Bepaal de kolomnamen van een tabel Exercise 4: Windowfunctie-SQL Exercise 5: Voortschrijdende sommen met windowfunctie-SQL Exercise 6: Repareer de kapotte query Exercise 7: Puntnotatie en SQL Exercise 8: Aggregatie, stap voor stap Exercise 9: Dezelfde kolom twee keer aggregeren Exercise 10: Aggregatie met dot-SQL Exercise 11: Zet een windowfunctie om van dotnotatie naar SQL

In dit hoofdstuk laad je tekst uit natuurlijke taal. Daarna pas je een schuivend-vensteranalyse toe om frequente woordreeksen te vinden.

Exercise 1: Natuurlijke taaltekst laden Exercise 2: Een dataframe laden uit een parquet-bestand Exercise 3: Splits en explodeer een tekstkolom Exercise 4: monotonically_increasing_id() gebruiken Exercise 5: Analyse met een schuivend venster Exercise 6: Contextvenster-featuredata maken Exercise 7: De data opnieuw partitioneren Exercise 8: Veelvoorkomende woordreeksen Exercise 9: Wat voor type gegevens is dit Exercise 10: Veelvoorkomende woordreeksen vinden Exercise 11: Unieke 5-tuplets in gesorteerde volgorde Exercise 12: Meest frequente 3-tuples per hoofdstuk

In de vorige hoofdstukken leerde je hoe je de expressiviteit van windowfunction-SQL gebruikt. Die expressiviteit maakt het nu belangrijk dat je begrijpt hoe je DataFrames en SQL-tabellen op de juiste manier cachet. Het is ook belangrijk om te weten hoe je je applicatie evalueert. Je leert dit doen met de Spark UI. Je leert ook een best practice voor loggen in Spark. Spark SQL biedt nog een handig hulpmiddel voor het afstemmen van queryprestatieproblemen: het query-executieplan. Je leert hoe je het executieplan gebruikt om de herkomst van een dataframe te beoordelen.

Exercise 1: Cachen Exercise 2: Oefenen met cachen: deel 1 Exercise 3: Oefenen met cachen: de SQL Exercise 4: Oefenen met cachen: alles bij elkaar brengen Exercise 5: Tabellen cachen en uit de cache halen Exercise 6: De Spark UI Exercise 7: Spark UI-tabblad Storage Exercise 8: Cache inspecteren in de Spark UI Exercise 9: Loggen Exercise 10: Oefenen met logging Exercise 11: Oefenen met loggen 2 Exercise 12: Queryplannen Exercise 13: Oefenen met queryplannen Exercise 14: Oefen met het lezen van queryplannen 2

In eerdere hoofdstukken heb je geleerd hoe je ruwe tekst laadt, tokenized en woordreeksen extraheert. Dat is al erg nuttig voor analyse, maar ook voor Machine Learning. Alles wat je hebt geleerd komt nu samen met logistieke regressie om tekst te classificeren. Aan het einde van dit hoofdstuk heb je ruwe tekst uit natuurlijke taal geladen en gebruikt om een tekstclassificatie te trainen.

Exercise 1: Extract Transform Select Exercise 2: Oefenen met het maken van een UDF Exercise 3: Oefenen met kolommen van het type array Exercise 4: Featuregegevens maken voor classificatie Exercise 5: Een UDF maken voor vectordata Exercise 6: Een UDF toepassen op vectorgegevens Exercise 7: Tekst omzetten naar vectorformaat Exercise 8: Tekstclassificatie Exercise 9: Voorzie de data van labels Exercise 10: Splits de data

Huidige oefening

Exercise 11: Train de classifier Exercise 12: Voorspellen en evalueren Exercise 13: Evalueer de classifier Exercise 14: Voorspel testgegevens Exercise 15: Samenvatting