Dividi i dati

È disponibile un dataframe df_examples con le colonne endword: string, features: vector, outvec: vector e label: int. Lo dividerai per ottenere un training set e un test set, che userai per addestrare e testare un classificatore.

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza corso

Istruzioni dell'esercizio

Dividi gli esempi in train e test usando uno split 80/20.
Stampa il numero di esempi di training.
Stampa il numero di esempi di test.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Split the examples into train and test, use 80/20 split
df_trainset, df_testset = df_examples.____((____), 42)

# Print the number of training examples
print("Number training: ", ____.____)

# Print the number of test examples
print("Number test: ", ____.____)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

AvançadoNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo imparerai a creare e interrogare una tabella SQL in Spark. Spark SQL porta l’espressività di SQL in Spark. Imparerai anche a usare le funzioni finestra SQL in Spark. Le funzioni finestra eseguono un calcolo su righe correlate alla riga corrente. Semplificano notevolmente il raggiungimento di risultati difficili da esprimere usando solo join e aggregazioni tradizionali. Useremo le funzioni finestra per calcolare somme cumulative, differenze progressive e altre operazioni complesse da ottenere con il semplice SQL.

Exercise 1: Creare e interrogare una tabella SQL in Spark Exercise 2: Crea una tabella SQL da un dataframe Exercise 3: Individua i nomi delle colonne di una tabella Exercise 4: SQL con funzioni finestra Exercise 5: Somme progressive con le funzioni finestra in SQL Exercise 6: Correggi la query difettosa Exercise 7: Notazione a punto e SQL Exercise 8: Aggregazione, passo dopo passo Exercise 9: Aggregare due volte la stessa colonna Exercise 10: SQL con dot notation per aggregazioni Exercise 11: Converti una funzione window dalla dot notation a SQL

In questo capitolo caricherai testo in linguaggio naturale. Poi applicherai un’analisi a finestra mobile per trovare sequenze di parole frequenti.

Exercise 1: Caricare testo in linguaggio naturale Exercise 2: Caricare un dataframe da un file parquet Exercise 3: Suddividi ed esplodi una colonna di testo Exercise 4: Uso di monotonically_increasing_id()Exercise 5: Analisi con finestra mobile Exercise 6: Creare dati di feature con finestra di contesto Exercise 7: Ripartizionare i dati Exercise 8: Sequenze di parole comuni Exercise 9: Che tipo di dati sono?Exercise 10: Trovare sequenze di parole comuni Exercise 11: 5‑tuple uniche in ordine ordinato Exercise 12: Triplle (3-tuples) più frequenti per capitolo

Nei capitoli precedenti hai imparato a sfruttare l’espressività delle funzioni finestra in SQL. Tuttavia, proprio questa espressività rende importante capire come mettere correttamente in cache i DataFrame e le tabelle SQL. È anche fondamentale sapere come valutare la tua applicazione. Imparerai a farlo usando la Spark UI. Vedrai inoltre una buona pratica per il logging in Spark. Spark SQL offre anche un altro strumento utile per ottimizzare le prestazioni delle query: il piano di esecuzione. Imparerai a usare il piano di esecuzione per valutare la provenienza di un DataFrame.

Exercise 1: Caching Exercise 2: Esercitarsi con la cache: parte 1 Exercise 3: Esercitarsi con il caching: la SQL Exercise 4: Esercizio sul caching: mettiamo tutto insieme Exercise 5: Mettere in cache e rimuovere dalla cache le tabelle Exercise 6: La Spark UI Exercise 7: Scheda Storage della Spark UI Exercise 8: Ispezionare la cache nella Spark UI Exercise 9: Registrazione dei log Exercise 10: Fai pratica con il logging Exercise 11: Metti in pratica il logging 2 Exercise 12: Piani di query Exercise 13: Metti in pratica i piani di query Exercise 14: Esercitati a leggere i piani di query 2

I capitoli precedenti ti hanno fornito gli strumenti per caricare testo grezzo, tokenizzarlo ed estrarre sequenze di parole. Questo è già molto utile per l’analisi, ma è utile anche per il Machine Learning. Quello che hai imparato ora converge nell’uso della regressione logistica per classificare il testo. Al termine di questo capitolo, avrai caricato dati testuali in linguaggio naturale grezzi e li avrai usati per addestrare un classificatore di testo.

Exercise 1: Estrai, trasforma, seleziona Exercise 2: Esercitarsi a creare una UDF Exercise 3: Esercitarsi con la colonna array Exercise 4: Creare dati di feature per la classificazione Exercise 5: Creare una UDF per dati vettoriali Exercise 6: Applicare una UDF ai dati vettoriali Exercise 7: Trasformare il testo in formato vettoriale Exercise 8: Classificazione del testo Exercise 9: Assegna le etichette ai dati Exercise 10: Dividi i dati

Esercizio attuale

Exercise 11: Addestra il classificatore Exercise 12: Prevedere e valutare Exercise 13: Valutare il classificatore Exercise 14: Predici i dati di test Exercise 15: Riepilogo