Getranscribeerde telefoongesprekken ordenen

We zijn bijna klaar om een tekstclassificatiemodel te bouwen. Maar op dit moment staat al onze getranscribeerde tekst in twee lijsten, pre_purchase_text en post_purchase_text.

Om het beter te organiseren voor het bouwen van een tekstclassificatiemodel en voor toekomstig gebruik, zetten we alles in een pandas DataFrame.

We beginnen met pandas te importeren als pd en maken daarna een post-purchase-dataframe, post_purchase_df, met pd.DataFrame().

We geven pd.DataFrame() een dictionary met een sleutel "label" met de waarde "post_purchase" en een sleutel "text" met als waarde onze lijst post_purchase_text.

We doen hetzelfde voor pre_purchase_df, maar dan met pre_purchase_text.

Om alle data op één plek te hebben, gebruiken we pd.concat() en geven we de pre- en post-purchase-DataFrames door.

Deze oefening maakt deel uit van de cursus

Spoken Language Processing in Python

Bekijk cursus

Oefeninstructies

Maak post_purchase_df met de lijst post_purchase_text.
Maak pre_purchase_df met de lijst pre_purchase_text.
Combineer de twee DataFrames met pd.concat().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

import pandas as pd

# Make dataframes with the text
post_purchase_df = pd.DataFrame({"label": "post_purchase",
                                 "text": ____})
pre_purchase_df = pd.____({"label": "pre_purchase",
                                "text": ____})

# Combine DataFrames
df = pd.____([post_purchase_df, pre_purchase_df])

# Print the combined DataFrame
print(df.head())

Code bewerken en uitvoeren