1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Wyszukiwanie popularnych sekwencji słów

Wcześniej zobaczyłeś, jak utworzyć zapytanie wyszukujące sekwencje słów o długości trzech elementów ("3-krotki"). Tego zapytania użyliśmy jako podzapytania w tradycyjnym zapytaniu SQL, aby znaleźć najczęstsze 3-krotki w dokumencie tekstowym. Teraz wykonasz podobne zadanie, aby znaleźć najczęstsze 5-krotki.

Dostępny jest DataFrame text_df zawierający pięć pierwszych rozdziałów tekstu o Sherlocku Holmesie. Ma on kolumny: word, id, part, title. Kolumna id jest liczbą całkowitą – im późniejsze słowo w dokumencie, tym większa wartość id. Kolumna part dzieli dane na rozdziały. DataFrame text_df jest również zarejestrowany jako tabela tymczasowa o nazwie text. Naszym celem jest utworzenie zbioru danych, w którym każdy wiersz odpowiada jednej 5-krotce i zawiera kolumnę count wskazującą, ile razy dana krotka wystąpiła w zbiorze danych.

Instrukcje

100 XP
  • Utwórz zapytanie query, które znajdzie 10 najczęstszych 5-krotek w zbiorze danych.