Obtenção de tokens

A próxima etapa é tokenizar o texto dos seus tuítes. A tokenização é o processo de dividir uma string em unidades léxicas ou, em termos mais simples, palavras. Mas, primeiro, você precisa remover as hashtags para que elas não atrapalhem seu processo. Você percebe que as hashtags começam com um símbolo # e contêm letras e números, mas nunca espaços em branco. Depois disso, você planeja dividir o texto em correspondências de espaço em branco para obter os tokens.

Você traz sua lista de quantificadores para ajudá-lo: * zero ou mais vezes, + uma vez ou mais, ? zero ou uma vez, {n, m} mínimo n, máximo m.

A variável sentiment_analysis, que contém o texto de um tuíte, bem como o módulo re, já estão carregados em sua sessão. Você pode usar print(sentiment_analysis) para visualizá-lo no Shell IPython.

Este exercicio faz parte do curso

Expressões regulares em Python

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Write a regex matching the hashtag pattern
regex = r"____"

Editar e Executar Código

Este exercicio faz parte do curso

Expressões regulares em Python

InicianteNível de habilidade

4.8+

Comece o curso gratuitamente

Comece sua jornada no mundo das expressões regulares! Desde o corte e a concatenação, o ajuste de maiúsculas e minúsculas, a remoção de espaços, até a localização e a substituição de strings. Você aprenderá a dominar a operação básica de manipulação de strings usando um conjunto de dados de resenhas de filmes.

Exercise 1: Introdução à manipulação de strings Exercise 2: Primeiro dia!Exercise 3: Resenhas artificiais Exercise 4: Palíndromos Exercise 5: Operações com strings Exercise 6: Normalização de resenhas Exercise 7: É hora de participar!Exercise 8: Dividir linhas ou dividir a linha?Exercise 9: Encontrar e substituir Exercise 10: Encontrar uma substring Exercise 11: Onde está a palavra?Exercise 12: Substituição de negações

Seguindo sua jornada, você aprenderá as principais abordagens que podem ser usadas para formatar ou interpolar strings em Python usando um conjunto de dados que contém informações extraídas da Web. Você explorará as vantagens e desvantagens de usar a formatação posicional, incorporar a expressão dentro de constantes de string e usar a classe Template.

Exercise 1: Formatação posicional Exercise 2: Coloque tudo em ordem!Exercise 3: Chamando pelo nome Exercise 4: Que dia é hoje?Exercise 5: Literal de string formatada Exercise 6: Formatação literal Exercise 7: Faça essa função Exercise 8: No prazo Exercise 9: Método Template Exercise 10: Preparação de um relatório Exercise 11: Identificação de preços Exercise 12: Jogando com segurança

Chegou a hora de você descobrir os conceitos fundamentais das expressões regulares! Neste capítulo importante, você aprenderá a entender os conceitos básicos da sintaxe de expressões regulares. Usando um conjunto de dados real com tuítes destinados à análise de sentimentos, você aprenderá a aplicar a correspondência de padrões usando caracteres normais e especiais e quantificadores gananciosos (greedy) e preguiçosos (lazy).

Exercise 1: Introdução às expressões regulares Exercise 2: Eles são bots?Exercise 3: Encontre os números Exercise 4: Corresponder e dividir Exercise 5: Repetições Exercise 6: Tudo limpo Exercise 7: Há algum tempo Exercise 8: Obtenção de tokens

Exercicio Atual

Exercise 9: Metacaracteres de regex Exercise 10: Localização de arquivos Exercise 11: Dê-me seu e-mail Exercise 12: Senha inválida Exercise 13: Correspondência gananciosa (greedy) vs. não gananciosa (non-greedy)Exercise 14: Entendendo a diferença Exercise 15: Correspondência gananciosa Exercise 16: Abordagem preguiçosa

Na última etapa da sua jornada, você aprenderá métodos mais complexos de correspondência de padrões usando parênteses para agrupar strings ou para corresponder ao mesmo texto correspondido anteriormente. Além disso, você terá uma ideia de como pode olhar as expressões ao redor.

Exercise 1: Captura de grupos Exercise 2: Tente outro nome Exercise 3: Voando para casa Exercise 4: Grupos de alternância e de não captura Exercise 5: Adorei!Exercise 6: Ugh! Não para mim!Exercise 7: Referências inversas Exercise 8: Analisando arquivos PDF Exercise 9: Feche a tag, por favor!Exercise 10: Caracteres repetidos Exercise 11: Lookaround Exercise 12: Palavras circundantes Exercise 13: Filtragem de números de telefone Exercise 14: Linha de chegada