Corresponda todos os grupos de captura
Neste exercício, você vai trabalhar com um arquivo de texto chamado top_10 que armazena os nomes dos filmes e sua classificação. Nesse texto multilinha, \\n é usado para começar uma nova linha. Você vai usar a função str_split() para dividir o arquivo de texto em várias linhas.
A nova matriz de uma linha top_10_lines passa a conter dez linhas com o mesmo padrão: a posição do filme, seguida de um ponto e um espaço, e o próprio título do filme. A função str_match() e dois grupos de captura () permitem extrair essas duas informações do texto puro para uma forma tabular.
Este exercício faz parte do curso
Expressões Regulares Intermediárias em R
Instruções do exercício
- Use a função
str_split()para dividir o texto em suas linhas, gerando uma matriz de caracteres ao ativarsimplify. - Familiarize-se com a estrutura de uma linha. Ela contém a classificação e o título de um filme.
- Extraia a classificação e o título de um filme usando grupos de captura na função
str_match().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split the input by line break and enable simplify
top_10_lines <- str_split(
top_10,
pattern = "___",
simplify = ___
)
# Inspect the first three lines and analyze their form
___[1:3]
# Add to the pattern two capturing groups that match rank and title
str_match(
top_10_lines,
pattern = "___\\. ___"
)