Transkribierte Telefonanrufdaten organisieren

Wir sind fast bereit, einen Textklassifikator zu bauen. Im Moment liegen jedoch alle unsere transkribierten Textdaten in zwei Listen, pre_purchase_text und post_purchase_text.

Um sie für den Aufbau eines Textklassifikators und auch für die spätere Nutzung besser zu organisieren, fassen wir sie in einem pandas DataFrame zusammen.

Zunächst importieren wir pandas als pd und erstellen dann ein Post-Purchase-DataFrame, post_purchase_df, mit pd.DataFrame().

Wir übergeben pd.DataFrame() ein Dictionary mit einem Schlüssel "label" und dem Wert "post_purchase" sowie einem Schlüssel "text" und dem Wert unserer Liste post_purchase_text.

Dasselbe machen wir für pre_purchase_df, nur mit pre_purchase_text.

Damit alle Daten an einem Ort sind, verwenden wir pd.concat() und übergeben die Pre- und Post-Purchase-DataFrames.

Diese Übung ist Teil des Kurses

<Kurs>Verarbeitung gesprochener Sprache in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle post_purchase_df mithilfe der Liste post_purchase_text.
Erstelle pre_purchase_df mithilfe der Liste pre_purchase_text.
Kombiniere die beiden DataFrames mit pd.concat().

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

import pandas as pd

# Make dataframes with the text
post_purchase_df = pd.DataFrame({"label": "post_purchase",
                                 "text": ____})
pre_purchase_df = pd.____({"label": "pre_purchase",
                                "text": ____})

# Combine DataFrames
df = pd.____([post_purchase_df, pre_purchase_df])

# Print the combined DataFrame
print(df.head())

Code bearbeiten und ausführen