or
Deze oefening maakt deel uit van de cursus
In dit hoofdstuk leer je hoe je een SQL-tabel in Spark maakt en bevraagt. Spark SQL brengt de expressiviteit van SQL naar Spark. Je leert ook hoe je SQL-windowfuncties in Spark gebruikt. Windowfuncties voeren een berekening uit over rijen die gerelateerd zijn aan de huidige rij. Ze maken het veel eenvoudiger om resultaten te bereiken die lastig zijn met alleen joins en traditionele aggregaties. We gebruiken windowfuncties voor lopende sommen, lopende verschillen en andere bewerkingen die in basis-SQL uitdagend zijn.
In dit hoofdstuk laad je tekst uit natuurlijke taal. Daarna pas je een schuivend-vensteranalyse toe om frequente woordreeksen te vinden.
In de vorige hoofdstukken leerde je hoe je de expressiviteit van windowfunction-SQL gebruikt. Die expressiviteit maakt het nu belangrijk dat je begrijpt hoe je DataFrames en SQL-tabellen op de juiste manier cachet. Het is ook belangrijk om te weten hoe je je applicatie evalueert. Je leert dit doen met de Spark UI. Je leert ook een best practice voor loggen in Spark. Spark SQL biedt nog een handig hulpmiddel voor het afstemmen van queryprestatieproblemen: het query-executieplan. Je leert hoe je het executieplan gebruikt om de herkomst van een dataframe te beoordelen.
Huidige oefening
In eerdere hoofdstukken heb je geleerd hoe je ruwe tekst laadt, tokenized en woordreeksen extraheert. Dat is al erg nuttig voor analyse, maar ook voor Machine Learning. Alles wat je hebt geleerd komt nu samen met logistieke regressie om tekst te classificeren. Aan het einde van dit hoofdstuk heb je ruwe tekst uit natuurlijke taal geladen en gebruikt om een tekstclassificatie te trainen.