Een dataframe laden uit een parquet-bestand

Er staat een dataframe-bestand met de naam sherlock_sentences.parquet in je workspace. Elke rij van deze dataframe bevat één bijzin. Elke bijzin is een reeks woorden die door leestekens, zoals punten, aanhalingstekens en andere natuurlijke taalafscheiders die een zin of zinsdeel aangeven, van andere bijzinnen wordt gescheiden. Jouw missie, als je die accepteert, is om dit bestand te laden.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Bekijk cursus

Oefeninstructies

Laad sherlock_sentences.parquet.
Filter op "id > 70" en laat de eerste 5 rijen zien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

SkillTag.level.advancedSkillTag.label

4.8+

146 reviews

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je een SQL-tabel in Spark maakt en bevraagt. Spark SQL brengt de expressiviteit van SQL naar Spark. Je leert ook hoe je SQL-windowfuncties in Spark gebruikt. Windowfuncties voeren een berekening uit over rijen die gerelateerd zijn aan de huidige rij. Ze maken het veel eenvoudiger om resultaten te bereiken die lastig zijn met alleen joins en traditionele aggregaties. We gebruiken windowfuncties voor lopende sommen, lopende verschillen en andere bewerkingen die in basis-SQL uitdagend zijn.

Exercise 1: Een SQL-tabel maken en bevragen in Spark Exercise 2: Maak een SQL-tabel van een dataframe Exercise 3: Bepaal de kolomnamen van een tabel Exercise 4: Windowfunctie-SQL Exercise 5: Voortschrijdende sommen met windowfunctie-SQL Exercise 6: Repareer de kapotte query Exercise 7: Puntnotatie en SQL Exercise 8: Aggregatie, stap voor stap Exercise 9: Dezelfde kolom twee keer aggregeren Exercise 10: Aggregatie met dot-SQL Exercise 11: Zet een windowfunctie om van dotnotatie naar SQL

In dit hoofdstuk laad je tekst uit natuurlijke taal. Daarna pas je een schuivend-vensteranalyse toe om frequente woordreeksen te vinden.

Exercise 1: Natuurlijke taaltekst laden Exercise 2: Een dataframe laden uit een parquet-bestand

Huidige oefening

Exercise 3: Splits en explodeer een tekstkolom Exercise 4: monotonically_increasing_id() gebruiken Exercise 5: Analyse met een schuivend venster Exercise 6: Contextvenster-featuredata maken Exercise 7: De data opnieuw partitioneren Exercise 8: Veelvoorkomende woordreeksen Exercise 9: Wat voor type gegevens is dit Exercise 10: Veelvoorkomende woordreeksen vinden Exercise 11: Unieke 5-tuplets in gesorteerde volgorde Exercise 12: Meest frequente 3-tuples per hoofdstuk

In de vorige hoofdstukken leerde je hoe je de expressiviteit van windowfunction-SQL gebruikt. Die expressiviteit maakt het nu belangrijk dat je begrijpt hoe je DataFrames en SQL-tabellen op de juiste manier cachet. Het is ook belangrijk om te weten hoe je je applicatie evalueert. Je leert dit doen met de Spark UI. Je leert ook een best practice voor loggen in Spark. Spark SQL biedt nog een handig hulpmiddel voor het afstemmen van queryprestatieproblemen: het query-executieplan. Je leert hoe je het executieplan gebruikt om de herkomst van een dataframe te beoordelen.

Exercise 1: Cachen Exercise 2: Oefenen met cachen: deel 1 Exercise 3: Oefenen met cachen: de SQL Exercise 4: Oefenen met cachen: alles bij elkaar brengen Exercise 5: Tabellen cachen en uit de cache halen Exercise 6: De Spark UI Exercise 7: Spark UI-tabblad Storage Exercise 8: Cache inspecteren in de Spark UI Exercise 9: Loggen Exercise 10: Oefenen met logging Exercise 11: Oefenen met loggen 2 Exercise 12: Queryplannen Exercise 13: Oefenen met queryplannen Exercise 14: Oefen met het lezen van queryplannen 2

In eerdere hoofdstukken heb je geleerd hoe je ruwe tekst laadt, tokenized en woordreeksen extraheert. Dat is al erg nuttig voor analyse, maar ook voor Machine Learning. Alles wat je hebt geleerd komt nu samen met logistieke regressie om tekst te classificeren. Aan het einde van dit hoofdstuk heb je ruwe tekst uit natuurlijke taal geladen en gebruikt om een tekstclassificatie te trainen.

Exercise 1: Extract Transform Select Exercise 2: Oefenen met het maken van een UDF Exercise 3: Oefenen met kolommen van het type array Exercise 4: Featuregegevens maken voor classificatie Exercise 5: Een UDF maken voor vectordata Exercise 6: Een UDF toepassen op vectorgegevens Exercise 7: Tekst omzetten naar vectorformaat Exercise 8: Tekstclassificatie Exercise 9: Voorzie de data van labels Exercise 10: Splits de data Exercise 11: Train de classifier Exercise 12: Voorspellen en evalueren Exercise 13: Evalueer de classifier Exercise 14: Voorspel testgegevens Exercise 15: Samenvatting