Haz coincidir todos los grupos de captura
En este ejercicio, vas a trabajar con un archivo de texto llamado top_10 que almacena los nombres de películas y su posición en el ranking. En este texto multilínea, se utiliza \\n para empezar una nueva línea. Usarás la función str_split() para dividir el archivo de texto en varias líneas.
La nueva matriz de una fila top_10_lines contendrá entonces diez líneas con el mismo patrón: la posición de la película, seguida de un punto y un espacio, y el propio título de la película. La función str_match() y dos grupos de captura () harán posible extraer estas dos piezas de información del texto plano a un formato tabular.
Este ejercicio forma parte del curso
Expresiones regulares intermedias en R
Instrucciones del ejercicio
- Usa la función
str_split()para dividir el texto en sus líneas, generando una matriz de caracteres activandosimplify. - Familiarízate con la estructura de una línea. Contiene la posición y el título de una película.
- Extrae la posición y el título de una película usando grupos de captura en la función
str_match().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Split the input by line break and enable simplify
top_10_lines <- str_split(
top_10,
pattern = "___",
simplify = ___
)
# Inspect the first three lines and analyze their form
___[1:3]
# Add to the pattern two capturing groups that match rank and title
str_match(
top_10_lines,
pattern = "___\\. ___"
)