Transkribierte Telefonanrufdaten organisieren
Wir sind fast bereit, einen Textklassifikator zu bauen. Im Moment liegen jedoch alle unsere transkribierten Textdaten in zwei Listen, pre_purchase_text und post_purchase_text.
Um sie für den Aufbau eines Textklassifikators und auch für die spätere Nutzung besser zu organisieren, fassen wir sie in einem pandas DataFrame zusammen.
Zunächst importieren wir pandas als pd und erstellen dann ein Post-Purchase-DataFrame, post_purchase_df, mit pd.DataFrame().
Wir übergeben pd.DataFrame() ein Dictionary mit einem Schlüssel "label" und dem Wert "post_purchase" sowie einem Schlüssel "text" und dem Wert unserer Liste post_purchase_text.
Dasselbe machen wir für pre_purchase_df, nur mit pre_purchase_text.
Damit alle Daten an einem Ort sind, verwenden wir pd.concat() und übergeben die Pre- und Post-Purchase-DataFrames.
Diese Übung ist Teil des Kurses
Verarbeitung gesprochener Sprache in Python
Anleitung zur Übung
- Erstelle
post_purchase_dfmithilfe der Listepost_purchase_text. - Erstelle
pre_purchase_dfmithilfe der Listepre_purchase_text. - Kombiniere die beiden DataFrames mit
pd.concat().
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
import pandas as pd
# Make dataframes with the text
post_purchase_df = pd.DataFrame({"label": "post_purchase",
"text": ____})
pre_purchase_df = pd.____({"label": "pre_purchase",
"text": ____})
# Combine DataFrames
df = pd.____([post_purchase_df, pre_purchase_df])
# Print the combined DataFrame
print(df.head())