Trasformazione logaritmica

Negli esercizi precedenti hai scalato i dati linearmente, operazione che non modifica la forma della distribuzione. Questo funziona molto bene se i tuoi dati sono distribuiti normalmente (o quasi), un’ipotesi su cui si basano molti modelli di machine learning. A volte lavorerai con dati che rispettano abbastanza bene la normalità, ad esempio l’altezza o il peso di una popolazione. D’altra parte, molte variabili nel mondo reale non seguono questo schema, ad esempio i salari o l’età di una popolazione. In questo esercizio applicherai una trasformazione logaritmica alla colonna ConvertedSalary del DataFrame so_numeric_df, perché una grande parte dei suoi valori è concentrata nella parte bassa ma sono presenti anche valori molto elevati. Si dice che queste distribuzioni abbiano una lunga coda destra.

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza corso

Istruzioni dell'esercizio

Importa PowerTransformer dal modulo preprocessing di sklearn.
Istanzia PowerTransformer() come pow_trans.
Adatta (fit) il PowerTransformer sulla colonna ConvertedSalary di so_numeric_df.
Trasforma la stessa colonna con lo scaler appena adattato.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import PowerTransformer
from sklearn.preprocessing import ____

# Instantiate PowerTransformer
pow_trans = ____

# Train the transform on the data
____

# Apply the power transform to the data
so_numeric_df['ConvertedSalary_LG'] = ____(so_numeric_df[['ConvertedSalary']])

# Plot the data before and after the transformation
so_numeric_df[['ConvertedSalary', 'ConvertedSalary_LG']].hist()
plt.show()

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

In questo capitolo esplorerai che cos’è il feature engineering e come iniziare ad applicarlo a dati del mondo reale. Caricherai, esplorerai e visualizzerai un insieme di risposte a un sondaggio e, così facendo, scoprirai i relativi tipi di dato e perché influenzano il modo in cui dovresti progettare le tue feature. Con il pacchetto pandas creerai nuove feature sia da colonne categoriche sia da colonne continue.

Exercise 1: Perché generare feature?Exercise 2: Conosci i tuoi dati Exercise 3: Selezionare tipi di dati specifici Exercise 4: Gestire le variabili categoriali Exercise 5: One-hot encoding e variabili dummy Exercise 6: Gestire le categorie poco comuni Exercise 7: Variabili numeriche Exercise 8: Binarizzare le colonne Exercise 9: Raggruppare i valori in intervalli (binning)

Questo capitolo ti introduce alla realtà dei dati disordinati e incompleti. Imparerai a individuare dove mancano valori nei tuoi dati ed esplorerai diversi approcci per gestirli. Userai anche tecniche di manipolazione di stringhe per rimuovere o trattare caratteri indesiderati nel tuo insieme di dati.

Exercise 1: Perché esistono i valori mancanti?Exercise 2: Quanto è sparso il mio insieme di dati?Exercise 3: Individuare i valori mancanti Exercise 4: Gestire i valori mancanti (I)Exercise 5: Eliminazione per lista (listwise deletion)Exercise 6: Sostituire i valori mancanti con costanti Exercise 7: Gestire i valori mancanti (II)Exercise 8: Compilare i valori mancanti continui Exercise 9: Imputazione dei valori nei modelli predittivi Exercise 10: Gestire altri problemi nei dati Exercise 11: Gestire i caratteri indesiderati (I)Exercise 12: Gestire i caratteri fuori posto (II)Exercise 13: Chaining dei metodi

In questo capitolo ti concentrerai sull’analisi della distribuzione sottostante dei tuoi dati e su come potrebbe influenzare la tua pipeline di Machine Learning. Imparerai a gestire dati asimmetrici e situazioni in cui i valori anomali possono avere un impatto negativo sulla tua analisi.

Exercise 1: Distribuzioni dei dati Exercise 2: Che aspetto hanno i tuoi dati? (I)Exercise 3: Com’è fatto il tuo insieme di dati? (II)Exercise 4: Quando non devi trasformare i tuoi dati?Exercise 5: Scalatura e trasformazioni Exercise 6: Normalizzazione Exercise 7: Standardizzazione Exercise 8: Trasformazione logaritmica

Esercizio attuale

Exercise 9: Quando puoi usare la normalizzazione?Exercise 10: Rimozione degli outlier Exercise 11: Rimozione degli outlier basata su percentuale Exercise 12: Rimozione statistica degli outlier Exercise 13: Scalare e trasformare nuovi dati Exercise 14: Trasformazioni di training e test (I)Exercise 15: Trasformazioni di train e test (II)

Infine, in questo capitolo lavorerai con dati testuali non strutturati, comprendendo come ricavare feature colonnari da un corpus di testo. Confronterai come approcci diversi possano influire sulla quantità di contesto estratta da un testo e come bilanciare l’esigenza di contesto senza generare troppe feature.

Exercise 1: Codificare il testo Exercise 2: Pulizia del testo Exercise 3: Feature testuali di alto livello Exercise 4: Conteggi di parole Exercise 5: Contare le parole (I)Exercise 6: Conteggio delle parole (II)Exercise 7: Limitare le tue feature Exercise 8: Da testo a DataFrame Exercise 9: Term frequency-inverse document frequency Exercise 10: Tf-idf Exercise 11: Esaminare i valori Tf-idf Exercise 12: Trasformare dati mai visti Exercise 13: N-grammi Exercise 14: Usare n-gram più lunghi Exercise 15: Trovare le parole più comuni Exercise 16: Riepilogo