Du texte à DataFrame
Vous avez généré des caractéristiques basées sur les comptes sous forme de tableau ; vous devez maintenant les reformater pour pouvoir les combiner avec le reste du jeu de données. Pour cela, convertissez le tableau en un DataFrame pandas, en utilisant comme noms de colonnes les noms de variables identifiés précédemment, puis concaténez-le avec le DataFrame d’origine.
Le tableau numpy (cv_array) et le vectoriseur (cv) que vous avez ajusté dans l’exercice précédent sont disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Créez un DataFrame
cv_dfcontenantcv_arraycomme valeurs et les noms de variables comme noms de colonnes. - Ajoutez le préfixe
Counts_aux noms de colonnes pour faciliter l’identification. - Concaténez ce DataFrame (
cv_df) au DataFrame d’origine (speech_df) horizontalement (par colonnes).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a DataFrame with these features
cv_df = pd.DataFrame(____,
columns=____).____('Counts_')
# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())