¡Duelo en la cima! Reseñas positivas de Amazon vs. Google
Las reseñas positivas de Amazon parecen mencionar bigramas como "good benefits", mientras que las negativas se centran en bigramas relacionados con la carga de trabajo ("workload") y problemas de "work-life balance".
En cambio, las reseñas positivas de Google mencionan "great food", "perks", "smart people" y "fun culture", entre otras cosas. Las reseñas negativas de Google hablan de "politics", "getting big", "bureaucracy" y "middle management".
Has decidido crear un gráfico piramidal alineando las reseñas positivas de Amazon y Google para comparar las diferencias entre los bigramas compartidos.
Hemos precargado un data frame, all_tdm_df, con terms y las frecuencias de bigramas correspondientes AmazonPro y GooglePro. Usando este data frame, identificarás los 5 bigramas principales que comparten ambos corpus.
Este ejercicio forma parte del curso
Minería de texto con Bag-of-Words en R
Instrucciones del ejercicio
- Crea
common_wordsa partir deall_tdm_dfusando funciones dedplyr.- Aplica
filter()sobre la columnaAmazonPropara valores distintos de cero. - Filtra igualmente la columna
GooglePropara valores distintos de cero. - Luego usa
mutate()para crear una nueva columna,diff, que sea la diferenciaabs(absoluta) entre las columnas de frecuencia de términos.
- Aplica
- Encadena
common_wordsaslice_maxpara creartop5_dfusando la columnadiffy los 5 valores superiores. Se imprimirá en tu consola para que lo revises. - Crea un
pyramid.plotpasando primerotop5_df$AmazonPro, luegotop5_df$GoogleProy, por último, añade las etiquetas contop5_df$terms.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Filter to words in common and create an absolute diff column
common_words <- all_tdm_df %>%
filter(
___ != 0,
___ != 0
) %>%
___(diff = ___(___ - ___))
# Extract top 5 common bigrams
(top5_df <- common_words %>% ___(___, n = ___))
# Create the pyramid plot
pyramid.plot(top5_df$___, top5_df$___,
labels = top5_df$___, gap = 12,
top.labels = c("Amzn", "Pro Words", "Goog"),
main = "Words in Common", unit = NULL)