Getranscribeerde telefoongesprekken ordenen
We zijn bijna klaar om een tekstclassificatiemodel te bouwen. Maar op dit moment staat al onze getranscribeerde tekst in twee lijsten, pre_purchase_text en post_purchase_text.
Om het beter te organiseren voor het bouwen van een tekstclassificatiemodel en voor toekomstig gebruik, zetten we alles in een pandas DataFrame.
We beginnen met pandas te importeren als pd en maken daarna een post-purchase-dataframe, post_purchase_df, met pd.DataFrame().
We geven pd.DataFrame() een dictionary met een sleutel "label" met de waarde "post_purchase" en een sleutel "text" met als waarde onze lijst post_purchase_text.
We doen hetzelfde voor pre_purchase_df, maar dan met pre_purchase_text.
Om alle data op één plek te hebben, gebruiken we pd.concat() en geven we de pre- en post-purchase-DataFrames door.
Deze oefening maakt deel uit van de cursus
Spoken Language Processing in Python
Oefeninstructies
- Maak
post_purchase_dfmet de lijstpost_purchase_text. - Maak
pre_purchase_dfmet de lijstpre_purchase_text. - Combineer de twee DataFrames met
pd.concat().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
import pandas as pd
# Make dataframes with the text
post_purchase_df = pd.DataFrame({"label": "post_purchase",
"text": ____})
pre_purchase_df = pd.____({"label": "pre_purchase",
"text": ____})
# Combine DataFrames
df = pd.____([post_purchase_df, pre_purchase_df])
# Print the combined DataFrame
print(df.head())