Analyser des hyperliens dans un data frame
Examinez la liste ul suivante de « liens utiles ».
Elle est composée de trois éléments li contenant chacun un élément a avec un lien :
Helpful links
Compiled with help from Google.
Le code HTML correspondant est disponible sous forme de chaîne dans hyperlink_raw_html.
Dans cet exercice, vous allez analyser ces liens dans un data frame R en sélectionnant uniquement les éléments a qui se trouvent dans des éléments li.
PS : vous utiliserez tibble(), une fonction du Tidyverse, pour cela. tibble() est en substance une version allégée de data.frame(), que vous connaissez certainement déjà. Comme avec data.frame(), vous indiquez les noms de colonnes et les données sous forme de paires nom de colonne/valeur, comme ceci :
my_tibble <- tibble(
column_name_1 = value_1,
column_name_2 = value_2,
...
)
Cet exercice fait partie du cours
Web scraping en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Extract all the a nodes from the bulleted list
links <- hyperlink_raw_html %>%
read_html() %>%
html_elements('li ___')