Converti una funzione window dalla dot notation a SQL

Aggiungiamo una colonna a un orario dei treni in modo che ogni riga contenga il numero di minuti necessari al treno per raggiungere la fermata successiva.

Abbiamo un dataframe df dove df.columns == ['train_id', 'station', 'time'].
df è registrato come tabella SQL chiamata schedule.
La seguente query con funzione window usa la dot notation. Restituisce un nuovo dataframe dot_df.

window = Window.partitionBy('train_id').orderBy('time')
dot_df = df.withColumn('diff_min', 
                    (unix_timestamp(lead('time', 1).over(window),'H:m') 
                     - unix_timestamp('time', 'H:m'))/60)

Nota l'uso della funzione unix_timestamp, equivalente alla funzione SQL UNIX_TIMESTAMP.

Fai attenzione all'impalcatura nel codice di esempio. Formattare la risposta seguendo l'impalcatura garantirà che la tua risposta inviata non venga erroneamente rifiutata per un problema di formattazione.

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza corso

Istruzioni dell'esercizio

Crea una query SQL per ottenere un risultato identico a dot_df. Per favore, formatta la query seguendo l'impalcatura (cioè i trattini bassi segnaposto _____).

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a SQL query to obtain an identical result to dot_df
query = """
SELECT *, 
(____(____(time, 1) ____ (____ BY train_id ____ BY time),'H:m') 
 - ____(time, 'H:m'))/60 AS diff_min 
FROM schedule 
"""
sql_df = spark.sql(query)
sql_df.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.

Exercise 1: Creare e interrogare una tabella SQL in Spark Exercise 2: Crea una tabella SQL da un dataframe Exercise 3: Individua i nomi delle colonne di una tabella Exercise 4: SQL con funzioni finestra Exercise 5: Somme progressive con le funzioni finestra in SQL Exercise 6: Correggi la query difettosa Exercise 7: Notazione a punto e SQL Exercise 8: Aggregazione, passo dopo passo Exercise 9: Aggregare due volte la stessa colonna Exercise 10: SQL con dot notation per aggregazioni Exercise 11: Converti una funzione window dalla dot notation a SQL

Esercizio attuale

In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.

Exercise 1: Caricare testo in linguaggio naturale Exercise 2: Caricare un dataframe da un file parquet Exercise 3: Suddividi ed esplodi una colonna di testo Exercise 4: Uso di monotonically_increasing_id()Exercise 5: Analisi con finestra mobile Exercise 6: Creare dati di feature con finestra di contesto Exercise 7: Ripartizionare i dati Exercise 8: Sequenze di parole comuni Exercise 9: Che tipo di dati sono?Exercise 10: Trovare sequenze di parole comuni Exercise 11: 5‑tuple uniche in ordine ordinato Exercise 12: Triplle (3-tuples) più frequenti per capitolo

Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.

Exercise 1: Caching Exercise 2: Esercitarsi con la cache: parte 1 Exercise 3: Esercitarsi con il caching: la SQL Exercise 4: Esercizio sul caching: mettiamo tutto insieme Exercise 5: Mettere in cache e rimuovere dalla cache le tabelle Exercise 6: La Spark UI Exercise 7: Scheda Storage della Spark UI Exercise 8: Ispezionare la cache nella Spark UI Exercise 9: Registrazione dei log Exercise 10: Fai pratica con il logging Exercise 11: Metti in pratica il logging 2 Exercise 12: Piani di query Exercise 13: Metti in pratica i piani di query Exercise 14: Esercitati a leggere i piani di query 2

I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.

Exercise 1: Estrai, trasforma, seleziona Exercise 2: Esercitarsi a creare una UDF Exercise 3: Esercitarsi con la colonna array Exercise 4: Creare dati di feature per la classificazione Exercise 5: Creare una UDF per dati vettoriali Exercise 6: Applicare una UDF ai dati vettoriali Exercise 7: Trasformare il testo in formato vettoriale Exercise 8: Classificazione del testo Exercise 9: Assegna le etichette ai dati Exercise 10: Dividi i dati Exercise 11: Addestra il classificatore Exercise 12: Prevedere e valutare Exercise 13: Valutare il classificatore Exercise 14: Predici i dati di test Exercise 15: Riepilogo