Esercitarsi a creare una UDF

A volte i tuoi dati richiedono una trasformazione non supportata dalle funzioni integrate. In questi casi è utile una funzione definita dall'utente ("UDF").

La funzione SQL udf è disponibile.

È disponibile un dataframe df2, di tipo DataFrame[doc: array<string>, in: array<string>, out: array<string>]. La sua colonna doc contiene token banali.

Il seguente comando mostra le prime 20 righe di df2 in cui doc contiene '1':

df2.where(array_contains('doc','1')).show()

Hai due obiettivi da raggiungere:

Assicurati che i dati trasformati consistano in vettori non vuoti.
Un dataframe ha una colonna che contiene array di stringhe, dove ogni array ha un solo elemento. Vorresti trasformare questa colonna in una stringa.

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza corso

Istruzioni dell'esercizio

Crea una udf che restituisce true se e solo se il valore è un vettore non vuoto, usando numNonzeros()
Crea una udf che restituisce il primo elemento dell'array e ne restituisce la rappresentazione come stringa.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Returns true if the value is a nonempty vector
nonempty_udf = udf(lambda x:  
    True if (x and hasattr(x, "toArray") and x.____())
    else False, ____())

# Returns first element of the array as string
s_udf = udf(lambda x: ____(x[0]) if (x and type(x) is list and len(x) > 0)
    else '', ____())

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.

Exercise 1: Creare e interrogare una tabella SQL in Spark Exercise 2: Crea una tabella SQL da un dataframe Exercise 3: Individua i nomi delle colonne di una tabella Exercise 4: SQL con funzioni finestra Exercise 5: Somme progressive con le funzioni finestra in SQL Exercise 6: Correggi la query difettosa Exercise 7: Notazione a punto e SQL Exercise 8: Aggregazione, passo dopo passo Exercise 9: Aggregare due volte la stessa colonna Exercise 10: SQL con dot notation per aggregazioni Exercise 11: Converti una funzione window dalla dot notation a SQL

In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.

Exercise 1: Caricare testo in linguaggio naturale Exercise 2: Caricare un dataframe da un file parquet Exercise 3: Suddividi ed esplodi una colonna di testo Exercise 4: Uso di monotonically_increasing_id()Exercise 5: Analisi con finestra mobile Exercise 6: Creare dati di feature con finestra di contesto Exercise 7: Ripartizionare i dati Exercise 8: Sequenze di parole comuni Exercise 9: Che tipo di dati sono?Exercise 10: Trovare sequenze di parole comuni Exercise 11: 5‑tuple uniche in ordine ordinato Exercise 12: Triplle (3-tuples) più frequenti per capitolo

Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.

Exercise 1: Caching Exercise 2: Esercitarsi con la cache: parte 1 Exercise 3: Esercitarsi con il caching: la SQL Exercise 4: Esercizio sul caching: mettiamo tutto insieme Exercise 5: Mettere in cache e rimuovere dalla cache le tabelle Exercise 6: La Spark UI Exercise 7: Scheda Storage della Spark UI Exercise 8: Ispezionare la cache nella Spark UI Exercise 9: Registrazione dei log Exercise 10: Fai pratica con il logging Exercise 11: Metti in pratica il logging 2 Exercise 12: Piani di query Exercise 13: Metti in pratica i piani di query Exercise 14: Esercitati a leggere i piani di query 2

I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.

Exercise 1: Estrai, trasforma, seleziona Exercise 2: Esercitarsi a creare una UDF

Esercizio attuale

Exercise 3: Esercitarsi con la colonna array Exercise 4: Creare dati di feature per la classificazione Exercise 5: Creare una UDF per dati vettoriali Exercise 6: Applicare una UDF ai dati vettoriali Exercise 7: Trasformare il testo in formato vettoriale Exercise 8: Classificazione del testo Exercise 9: Assegna le etichette ai dati Exercise 10: Dividi i dati Exercise 11: Addestra il classificatore Exercise 12: Prevedere e valutare Exercise 13: Valutare il classificatore Exercise 14: Predici i dati di test Exercise 15: Riepilogo