Aan de slagGa gratis aan de slag

Unieke 5-tuplets in gesorteerde volgorde

In een eerdere les heb je een bewerking geleerd die duplicaten verwijdert en zo unieke records ophaalt. In een vorige oefening heb je veelvoorkomende 5-tuplets opgehaald. We combineren deze twee mogelijkheden om de unieke 5-tuplets te vinden, alfabetisch gesorteerd in aflopende volgorde.

De tabel text bevat de eerste vier hoofdstukken van de tekst van Sherlock Holmes. Hij heeft de volgende kolommen: word, id en part.

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Cursus bekijken

Oefeninstructies

  • Haal de laatste tien unieke 5-tuplets op, alfabetisch gesorteerd in aflopende volgorde.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Unique 5-tuples sorted in descending order
query = """
SELECT ____ w1, w2, w3, w4, w5 FROM (
   SELECT word AS w1,
   ____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w2,
   ____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w3,
   ____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w4,
   ____(word,____) OVER(PARTITION BY ____ ORDER BY ____ ) AS w5
   FROM text
)
ORDER BY w1 DESC, w2 DESC, ____ DESC, w4 ____, ____ ____ 
LIMIT 10
"""
df = spark.sql(query)
df.show()
Code bewerken en uitvoeren