Cache inspecteren in de Spark UI

Er is een dataframe partitioned_df beschikbaar. Dit wordt gebruikt om een tijdelijke tabel text te registreren. text wordt vervolgens gecachet met spark.catalog.cacheTable('text'). Als je Spark lokaal zou draaien, is de Spark UI beschikbaar op http://localhost:4040/storage/. Bekijk voor deze oefening de volgende afbeelding. Deze laat zien wat de Spark UI toont zodra de cache voor text is geladen:

Spark UI Storage

Hieruit blijkt dat een tabel text met zeven partities in het geheugen is gecachet. Welke van de volgende opties zorgt er direct voor dat het bovenstaande in de Spark UI verschijnt?

Een transformatie uitvoeren op het onderliggende dataframe, bijvoorbeeld df = partitioned_df.distinct().
Het onderliggende dataframe tellen, bijvoorbeeld: partitioned_df.count()
De tabel query’en met bijvoorbeeld: spark.sql("select count(*) from text")
De query uitvoeren en het resultaat tonen, bijvoorbeeld: spark.sql("select count(*) from text").show()

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Interactieve oefening met praktijkervaring

Zet theorie om in actie met een van onze interactieve oefeningen

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

SkillTag.level.advancedSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk leer je hoe je een SQL-tabel in Spark maakt en bevraagt. Spark SQL brengt de expressiviteit van SQL naar Spark. Je leert ook hoe je SQL-windowfuncties in Spark gebruikt. Windowfuncties voeren een berekening uit over rijen die gerelateerd zijn aan de huidige rij. Ze maken het veel eenvoudiger om resultaten te bereiken die lastig zijn met alleen joins en traditionele aggregaties. We gebruiken windowfuncties voor lopende sommen, lopende verschillen en andere bewerkingen die in basis-SQL uitdagend zijn.

Exercise 1: Een SQL-tabel maken en bevragen in Spark Exercise 2: Maak een SQL-tabel van een dataframe Exercise 3: Bepaal de kolomnamen van een tabel Exercise 4: Windowfunctie-SQL Exercise 5: Voortschrijdende sommen met windowfunctie-SQL Exercise 6: Repareer de kapotte query Exercise 7: Puntnotatie en SQL Exercise 8: Aggregatie, stap voor stap Exercise 9: Dezelfde kolom twee keer aggregeren Exercise 10: Aggregatie met dot-SQL Exercise 11: Zet een windowfunctie om van dotnotatie naar SQL

In dit hoofdstuk laad je tekst uit natuurlijke taal. Daarna pas je een schuivend-vensteranalyse toe om frequente woordreeksen te vinden.

Exercise 1: Natuurlijke taaltekst laden Exercise 2: Een dataframe laden uit een parquet-bestand Exercise 3: Splits en explodeer een tekstkolom Exercise 4: monotonically_increasing_id() gebruiken Exercise 5: Analyse met een schuivend venster Exercise 6: Contextvenster-featuredata maken Exercise 7: De data opnieuw partitioneren Exercise 8: Veelvoorkomende woordreeksen Exercise 9: Wat voor type gegevens is dit Exercise 10: Veelvoorkomende woordreeksen vinden Exercise 11: Unieke 5-tuplets in gesorteerde volgorde Exercise 12: Meest frequente 3-tuples per hoofdstuk

In de vorige hoofdstukken leerde je hoe je de expressiviteit van windowfunction-SQL gebruikt. Die expressiviteit maakt het nu belangrijk dat je begrijpt hoe je DataFrames en SQL-tabellen op de juiste manier cachet. Het is ook belangrijk om te weten hoe je je applicatie evalueert. Je leert dit doen met de Spark UI. Je leert ook een best practice voor loggen in Spark. Spark SQL biedt nog een handig hulpmiddel voor het afstemmen van queryprestatieproblemen: het query-executieplan. Je leert hoe je het executieplan gebruikt om de herkomst van een dataframe te beoordelen.

Exercise 1: Cachen Exercise 2: Oefenen met cachen: deel 1 Exercise 3: Oefenen met cachen: de SQL Exercise 4: Oefenen met cachen: alles bij elkaar brengen Exercise 5: Tabellen cachen en uit de cache halen Exercise 6: De Spark UI Exercise 7: Spark UI-tabblad Storage Exercise 8: Cache inspecteren in de Spark UI

Huidige oefening

Exercise 9: Loggen Exercise 10: Oefenen met logging Exercise 11: Oefenen met loggen 2 Exercise 12: Queryplannen Exercise 13: Oefenen met queryplannen Exercise 14: Oefen met het lezen van queryplannen 2

In eerdere hoofdstukken heb je geleerd hoe je ruwe tekst laadt, tokenized en woordreeksen extraheert. Dat is al erg nuttig voor analyse, maar ook voor Machine Learning. Alles wat je hebt geleerd komt nu samen met logistieke regressie om tekst te classificeren. Aan het einde van dit hoofdstuk heb je ruwe tekst uit natuurlijke taal geladen en gebruikt om een tekstclassificatie te trainen.

Exercise 1: Extract Transform Select Exercise 2: Oefenen met het maken van een UDF Exercise 3: Oefenen met kolommen van het type array Exercise 4: Featuregegevens maken voor classificatie Exercise 5: Een UDF maken voor vectordata Exercise 6: Een UDF toepassen op vectorgegevens Exercise 7: Tekst omzetten naar vectorformaat Exercise 8: Tekstclassificatie Exercise 9: Voorzie de data van labels Exercise 10: Splits de data Exercise 11: Train de classifier Exercise 12: Voorspellen en evalueren Exercise 13: Evalueer de classifier Exercise 14: Voorspel testgegevens Exercise 15: Samenvatting