or
Questo esercizio fa parte del corso
In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.
In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.
Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.
Esercizio attuale
I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.