Unieke 5-tuplets in gesorteerde volgorde
In een eerdere les heb je een bewerking geleerd die duplicaten verwijdert en zo unieke records ophaalt. In een vorige oefening heb je veelvoorkomende 5-tuplets opgehaald. We combineren deze twee mogelijkheden om de unieke 5-tuplets te vinden, alfabetisch gesorteerd in aflopende volgorde.
De tabel text bevat de eerste vier hoofdstukken van de tekst van Sherlock Holmes. Hij heeft de volgende kolommen: word, id en part.
Deze oefening maakt deel uit van de cursus
Introductie tot Spark SQL in Python
Oefeninstructies
- Haal de laatste tien unieke 5-tuplets op, alfabetisch gesorteerd in aflopende volgorde.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Unique 5-tuples sorted in descending order
query = """
SELECT ____ w1, w2, w3, w4, w5 FROM (
SELECT word AS w1,
____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w2,
____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w3,
____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w4,
____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w5
FROM text
)
ORDER BY w1 DESC, w2 DESC, ____ DESC, w4 ____, ____ ____
LIMIT 10
"""
df = spark.sql(query)
df.show()