ComenzarEmpieza gratis

Todo limpio

Vuelve a tu proyecto de análisis de sentimiento de Twitter. Hay varios tipos de cadenas que aumentan la complejidad de tu análisis de sentimiento. Sin embargo, estas cadenas no proporcionan ningún sentimiento útil. Entre ellas, podemos tener enlaces y menciones de usuarios.

Para limpiar los tuits, primero quieres extraer algunos ejemplos. Sabes que la mayoría de las veces los enlaces empiezan por http y no contienen ningún espacio en blanco (por ejemplo, https://www.datacamp.com). Las menciones de usuario empiezan por @ y solo pueden tener letras y números (por ejemplo, @johnsmith3).

Debes anotar algunos cuantificadores útiles: * cero o más veces, + una vez o más, ? cero veces o una vez.

La lista sentiment_analysis, que contiene el texto de tres tuits, ya se ha cargado en tu sesión. Puedes utilizar print() para ver los datos en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Ver curso

Instrucciones de ejercicio

  • Importa el módulo re.
  • Escribe una regex para buscar todas las instancias de los enlaces http que aparezcan en cada tweet de sentiment_analysis. Imprime el resultado.
  • Escribe una regex para buscar todas las instancias de las menciones de usuarios que aparezcan en cada tweet de sentiment_analysis. Imprime el resultado.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import re module
____

for tweet in sentiment_analysis:
	# Write regex to match http links and print out result
	print(re.____(____"____", ____))

	# Write regex to match user mentions and print out result
	print(re.____(____"____", ____))
Editar y ejecutar código