Tudo limpo
De volta ao seu projeto de análise de sentimentos do Twitter! Há vários tipos de strings que aumentam a complexidade da análise de sentimentos. Mas essas strings não fornecem nenhum sentimento útil. Entre eles, podemos ter links e menções de usuários.
Para limpar os tuítes, você deve extrair alguns exemplos primeiro. Você sabe que, na maioria das vezes, os links começam com http
e não contêm nenhum espaço em branco, por exemplo, https://www.datacamp.com
. As menções de usuário começam com @
e podem ter apenas letras e números, por exemplo, @johnsmith3
.
Você anota alguns quantificadores úteis para ajudá-lo: *
zero ou mais vezes, +
uma vez ou mais, ?
zero ou uma vez.
A lista sentiment_analysis
contendo o texto de três tuítes já está carregada em sua sessão. Você pode usar print()
para visualizar os dados no Shell IPython.
Este exercício faz parte do curso
Expressões regulares em Python
Instruções de exercício
- Importe o módulo
re
. - Escreva uma regex para encontrar todas as correspondências dos links
http
que aparecem em cadatweet
emsentiment_analysis
. Imprima o resultado. - Escreva uma regex para encontrar todas as correspondências de menções de usuários que aparecem em cada
tweet
emsentiment_analysis
. Imprima o resultado.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import re module
____
for tweet in sentiment_analysis:
# Write regex to match http links and print out result
print(re.____(____"____", ____))
# Write regex to match user mentions and print out result
print(re.____(____"____", ____))