Texto a DataFrame
Ahora que has generado estas características basadas en conteos en un array, necesitas reformatearlas para poder combinarlas con el resto del conjunto de datos. Puedes hacerlo convirtiendo el array en un DataFrame de pandas, usando como nombres de columna los nombres de características que obtuviste antes, y luego concatenándolo con el DataFrame original.
El array de numpy (cv_array) y el vectorizer (cv) que ajustaste en el ejercicio anterior están disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Crea un DataFrame
cv_dfque contengacv_arraycomo valores y los nombres de características como nombres de columna. - Añade el prefijo
Counts_a los nombres de las columnas para facilitar su identificación. - Concatena este DataFrame (
cv_df) con el DataFrame original (speech_df) por columnas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a DataFrame with these features
cv_df = pd.DataFrame(____,
columns=____).____('Counts_')
# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())