Trovare sequenze di parole comuni

In precedenza abbiamo visto come creare una query che trovi sequenze di parole di lunghezza tre ("3-tuples"). Abbiamo usato quella query come sottoquery in una query SQL tradizionale per trovare le 3-tuples più comuni nel documento di testo. Ora eseguirai un compito simile per trovare le 5-tuples più comuni.

Il DataFrame text_df è disponibile. Contiene i primi cinque capitoli del testo di Sherlock Holmes. Ha le colonne: word, id, part, title. La colonna id è un intero tale che una parola che compare più avanti nel documento ha un id maggiore rispetto a una parola che compare prima. La colonna part separa i dati in capitoli. Il DataFrame text_df è anche registrato come tabella temporanea chiamata text. Il nostro obiettivo è creare un insieme di dati in cui ogni riga corrisponde a una 5-tuple, con un count che indica quante volte la tupla è comparsa nell’insieme di dati.

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza corso

Istruzioni dell'esercizio

Crea una query query che trovi le 10 5-tuples più comuni nell’insieme di dati.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Find the top 10 sequences of five words
query = """
SELECT w1, w2, w3, w4, w5, COUNT(*) AS count FROM (
   SELECT word AS w1,
   LEAD(____) OVER(____ ) AS w2,
   ____ AS w3,
   ____ AS w4,
   ____ AS w5
   FROM text
)
GROUP BY w1, w2, w3, w4, w5
ORDER BY count DESC, w1, w2, w3, w4, w5
LIMIT ____
"""
df = spark.sql(query)
df.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.

Exercise 1: Creare e interrogare una tabella SQL in Spark Exercise 2: Crea una tabella SQL da un dataframe Exercise 3: Individua i nomi delle colonne di una tabella Exercise 4: SQL con funzioni finestra Exercise 5: Somme progressive con le funzioni finestra in SQL Exercise 6: Correggi la query difettosa Exercise 7: Notazione a punto e SQL Exercise 8: Aggregazione, passo dopo passo Exercise 9: Aggregare due volte la stessa colonna Exercise 10: SQL con dot notation per aggregazioni Exercise 11: Converti una funzione window dalla dot notation a SQL

In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.

Exercise 1: Caricare testo in linguaggio naturale Exercise 2: Caricare un dataframe da un file parquet Exercise 3: Suddividi ed esplodi una colonna di testo Exercise 4: Uso di monotonically_increasing_id()Exercise 5: Analisi con finestra mobile Exercise 6: Creare dati di feature con finestra di contesto Exercise 7: Ripartizionare i dati Exercise 8: Sequenze di parole comuni Exercise 9: Che tipo di dati sono?Exercise 10: Trovare sequenze di parole comuni

Esercizio attuale

Exercise 11: 5‑tuple uniche in ordine ordinato Exercise 12: Triplle (3-tuples) più frequenti per capitolo

Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.

Exercise 1: Caching Exercise 2: Esercitarsi con la cache: parte 1 Exercise 3: Esercitarsi con il caching: la SQL Exercise 4: Esercizio sul caching: mettiamo tutto insieme Exercise 5: Mettere in cache e rimuovere dalla cache le tabelle Exercise 6: La Spark UI Exercise 7: Scheda Storage della Spark UI Exercise 8: Ispezionare la cache nella Spark UI Exercise 9: Registrazione dei log Exercise 10: Fai pratica con il logging Exercise 11: Metti in pratica il logging 2 Exercise 12: Piani di query Exercise 13: Metti in pratica i piani di query Exercise 14: Esercitati a leggere i piani di query 2

I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.

Exercise 1: Estrai, trasforma, seleziona Exercise 2: Esercitarsi a creare una UDF Exercise 3: Esercitarsi con la colonna array Exercise 4: Creare dati di feature per la classificazione Exercise 5: Creare una UDF per dati vettoriali Exercise 6: Applicare una UDF ai dati vettoriali Exercise 7: Trasformare il testo in formato vettoriale Exercise 8: Classificazione del testo Exercise 9: Assegna le etichette ai dati Exercise 10: Dividi i dati Exercise 11: Addestra il classificatore Exercise 12: Prevedere e valutare Exercise 13: Valutare il classificatore Exercise 14: Predici i dati di test Exercise 15: Riepilogo