Organiser des données d’appels téléphoniques transcrits
Nous sommes presque prêts à construire un classificateur de texte. Mais pour l’instant, toutes nos transcriptions sont réparties dans deux listes, pre_purchase_text et post_purchase_text.
Pour mieux les organiser, à la fois pour la création du classificateur et pour un usage futur, nous allons tout rassembler dans un DataFrame pandas.
Pour commencer, nous allons importer pandas sous le nom pd, puis créer un DataFrame pour l’après-achat, post_purchase_df, à l’aide de pd.DataFrame().
Nous passerons à pd.DataFrame() un dictionnaire contenant une clé "label" avec la valeur "post_purchase" et une clé "text" avec la valeur correspondant à notre liste post_purchase_text.
Nous ferons la même chose pour pre_purchase_df, mais avec pre_purchase_text.
Pour regrouper toutes les données au même endroit, nous utiliserons pd.concat() et lui passerons les DataFrames d’avant et d’après achat.
Cet exercice fait partie du cours
Traitement du langage parlé en Python
Instructions
- Créez
post_purchase_dfà partir de la listepost_purchase_text. - Créez
pre_purchase_dfà partir de la listepre_purchase_text. - Combinez les deux DataFrames avec
pd.concat().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
import pandas as pd
# Make dataframes with the text
post_purchase_df = pd.DataFrame({"label": "post_purchase",
"text": ____})
pre_purchase_df = pd.____({"label": "pre_purchase",
"text": ____})
# Combine DataFrames
df = pd.____([post_purchase_df, pre_purchase_df])
# Print the combined DataFrame
print(df.head())