Log-Transformation

In den vorherigen Übungen hast du die Daten linear skaliert; das verändert die Form der Daten nicht. Das funktioniert gut, wenn deine Daten normalverteilt sind (oder annähernd normalverteilt) – eine Annahme, die viele Machine-Learning-Modelle treffen. Manchmal arbeitest du mit Daten, die der Normalverteilung recht gut entsprechen, z. B. Körpergröße oder -gewicht einer Population. Viele Variablen in der realen Welt folgen diesem Muster jedoch nicht, z. B. Löhne oder Alter einer Population. In dieser Übung wendest du eine Log-Transformation auf die Spalte ConvertedSalary im DataFrame so_numeric_df an, da ein großer Teil der Werte im unteren Bereich liegt, aber auch sehr hohe Werte vorkommen. Solche Verteilungen haben einen langen rechten Schwanz.

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering für Machine Learning in Python</Kurs>

Übungsanweisungen

Importiere PowerTransformer aus dem Modul preprocessing von sklearn.
Instanziiere PowerTransformer() als pow_trans.
Fitte den PowerTransformer auf die Spalte ConvertedSalary von so_numeric_df.
Transformiere dieselbe Spalte mit dem soeben gefitteten Scaler.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import PowerTransformer
from sklearn.preprocessing import ____

# Instantiate PowerTransformer
pow_trans = ____

# Train the transform on the data
____

# Apply the power transform to the data
so_numeric_df['ConvertedSalary_LG'] = ____(so_numeric_df[['ConvertedSalary']])

# Plot the data before and after the transformation
so_numeric_df[['ConvertedSalary', 'ConvertedSalary_LG']].hist()
plt.show()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering für Machine Learning in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In this chapter, you will explore what feature engineering is and how to get started with applying it to real-world data. You will load, explore and visualize a survey response dataset, and in doing so you will learn about its underlying data types and why they have an influence on how you should engineer your features. Using the pandas package you will create new features from both categorical and continuous columns.

Exercise 1: Why generate features?Exercise 2: Getting to know your data Exercise 3: Selecting specific data types Exercise 4: Dealing with categorical features Exercise 5: One-hot encoding and dummy variables Exercise 6: Dealing with uncommon categories Exercise 7: Numeric variables Exercise 8: Binarizing columns Exercise 9: Binning values

This chapter introduces you to the reality of messy and incomplete data. You will learn how to find where your data has missing values and explore multiple approaches on how to deal with them. You will also use string manipulation techniques to deal with unwanted characters in your dataset.

Exercise 1: Why do missing values exist?Exercise 2: How sparse is my data?Exercise 3: Finding the missing values Exercise 4: Dealing with missing values (I)Exercise 5: Listwise deletion Exercise 6: Replacing missing values with constants Exercise 7: Dealing with missing values (II)Exercise 8: Filling continuous missing values Exercise 9: Imputing values in predictive models Exercise 10: Dealing with other data issues Exercise 11: Dealing with stray characters (I)Exercise 12: Dealing with stray characters (II)Exercise 13: Method chaining

In this chapter, you will focus on analyzing the underlying distribution of your data and whether it will impact your machine learning pipeline. You will learn how to deal with skewed data and situations where outliers may be negatively impacting your analysis.

Exercise 1: Datenverteilungen Exercise 2: Wie sehen deine Daten aus? (I)Exercise 3: Wie sehen deine Daten aus? (II)Exercise 4: Wann musst du deine Daten nicht transformieren?Exercise 5: Skalierung und Transformationen Exercise 6: Normalisierung Exercise 7: Standardisierung Exercise 8: Log-Transformation

Aktuelle Übung

Exercise 9: Wann kannst du Normalisierung verwenden?Exercise 10: Ausreißer entfernen Exercise 11: Prozentbasierte Ausreißerentfernung Exercise 12: Statistisches Entfernen von Ausreißern Exercise 13: Neue Daten skalieren und transformieren Exercise 14: Transformationen für Training und Test (I)Exercise 15: Transformationen für Training und Test (II)

Finally, in this chapter, you will work with unstructured text data, understanding ways in which you can engineer columnar features out of a text corpus. You will compare how different approaches may impact how much context is being extracted from a text, and how to balance the need for context, without too many features being created.

Exercise 1: Encoding text Exercise 2: Cleaning up your text Exercise 3: High level text features Exercise 4: Word counts Exercise 5: Counting words (I)Exercise 6: Counting words (II)Exercise 7: Limiting your features Exercise 8: Text to DataFrame Exercise 9: Term frequency-inverse document frequency Exercise 10: Tf-idf Exercise 11: Inspecting Tf-idf values Exercise 12: Transforming unseen data Exercise 13: N-grams Exercise 14: Using longer n-grams Exercise 15: Finding the most common words Exercise 16: Wrap-up