Esercitarsi con il caching: la SQL

In precedenza abbiamo esaminato due DataFrame: df1 e df2 (creato a partire da df1). Abbiamo provato a mettere in cache df1, ma non df2. In questo esercizio analizzeremo gli effetti di mettere in cache df2, ma non df1.

Anche qui, prendi nota del tempo impiegato da ogni azione. Confronteremo questi tempi nel prossimo esercizio. Quali attività risultano più rapide? Quali invece più lente?

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza corso

Istruzioni dell'esercizio

Metti in cache df2, ma non df1.
Esegui una prima azione su df1 e ripetila, poi esegui un'azione su df2 e ripetila. Questo è già stato fatto per te.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Unpersist df1 and df2 and initializes a timer
prep(df1, df2) 

# Persist df2 using memory and disk storage level 
df2.persist(____)

# Run actions both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd") 
run(df2, "df2_1st") 
run(df2, "df2_2nd", elapsed=True)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.

Exercise 1: Creare e interrogare una tabella SQL in Spark Exercise 2: Crea una tabella SQL da un dataframe Exercise 3: Individua i nomi delle colonne di una tabella Exercise 4: SQL con funzioni finestra Exercise 5: Somme progressive con le funzioni finestra in SQL Exercise 6: Correggi la query difettosa Exercise 7: Notazione a punto e SQL Exercise 8: Aggregazione, passo dopo passo Exercise 9: Aggregare due volte la stessa colonna Exercise 10: SQL con dot notation per aggregazioni Exercise 11: Converti una funzione window dalla dot notation a SQL

In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.

Exercise 1: Caricare testo in linguaggio naturale Exercise 2: Caricare un dataframe da un file parquet Exercise 3: Suddividi ed esplodi una colonna di testo Exercise 4: Uso di monotonically_increasing_id()Exercise 5: Analisi con finestra mobile Exercise 6: Creare dati di feature con finestra di contesto Exercise 7: Ripartizionare i dati Exercise 8: Sequenze di parole comuni Exercise 9: Che tipo di dati sono?Exercise 10: Trovare sequenze di parole comuni Exercise 11: 5‑tuple uniche in ordine ordinato Exercise 12: Triplle (3-tuples) più frequenti per capitolo

Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.

Exercise 1: Caching Exercise 2: Esercitarsi con la cache: parte 1 Exercise 3: Esercitarsi con il caching: la SQL

Esercizio attuale

Exercise 4: Esercizio sul caching: mettiamo tutto insieme Exercise 5: Mettere in cache e rimuovere dalla cache le tabelle Exercise 6: La Spark UI Exercise 7: Scheda Storage della Spark UI Exercise 8: Ispezionare la cache nella Spark UI Exercise 9: Registrazione dei log Exercise 10: Fai pratica con il logging Exercise 11: Metti in pratica il logging 2 Exercise 12: Piani di query Exercise 13: Metti in pratica i piani di query Exercise 14: Esercitati a leggere i piani di query 2

I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.

Exercise 1: Estrai, trasforma, seleziona Exercise 2: Esercitarsi a creare una UDF Exercise 3: Esercitarsi con la colonna array Exercise 4: Creare dati di feature per la classificazione Exercise 5: Creare una UDF per dati vettoriali Exercise 6: Applicare una UDF ai dati vettoriali Exercise 7: Trasformare il testo in formato vettoriale Exercise 8: Classificazione del testo Exercise 9: Assegna le etichette ai dati Exercise 10: Dividi i dati Exercise 11: Addestra il classificatore Exercise 12: Prevedere e valutare Exercise 13: Valutare il classificatore Exercise 14: Predici i dati di test Exercise 15: Riepilogo