Veilig itereren

Net als in het vorige hoofdstuk doen we alsof je data-analist bent bij een webbureau. Dit keer is je gevraagd om wat webscraping te doen.

(Opmerking: geen zorgen als je niet weet hoe webscraping werkt. We beginnen eenvoudig en leggen alle functies uit.)

Je hebt een lijst met URL's ontvangen, maar je vermoedt dat sommige geen echte adressen zijn. Het eerste wat je gaat doen is testen of je met deze URL's kunt verbinden. Hiervoor gebruiken we een eenvoudige functie uit het readr-pakket: read_lines(), die we binnen een safely() plaatsen. Als je een URL meegeeft, leest read_lines() de HTML of geeft een foutmelding terug als de URL niet bereikbaar is.

De vector urls is beschikbaar in je werkruimte. Print hem in de console als je wilt zien wat erin staat.

Deze oefening maakt deel uit van de cursus

Gevorderd functioneel programmeren met purrr

Oefeninstructies

Maak een veilige versie van de functie read_lines().
Map deze nieuw gemaakte functie over de meegeleverde vector urls.
Stel de namen van de resultaten in met de functie set_names().
Extraheer het element "error" van elke sublijst.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a safe version of read_lines()
safe_read <- ___(___)

# Map it on the urls vector
res <- ___(urls, ___)

# Set the name of the results to `urls`
named_res <- ___(res, ___)

# Extract only the "error" part of each sublist
___(named_res, ___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Gevorderd functioneel programmeren met purrr

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Klinken lambda-functies, mappers en predicaten intimiderend? Niet nodig! Na een korte opfrissing van purrr duiken we in functioneel programmeren 101, ontdekken we anonieme functies en predicaten, en zien we hoe je ze inzet om data op te schonen en te verkennen.

Exercise 1: purrr-basics - een opfrisser Exercise 2: Je purrr-kennis opfrissen Exercise 3: Nog een purrr-opfrisser Exercise 4: Introductie tot mappers Exercise 5: Lambda-functies maken Exercise 6: Lambdafuncties Exercise 7: Mappers gebruiken om je data op te schonen Exercise 8: Ruim je data op met keep Exercise 9: Splitsen met keep() en discard()Exercise 10: Predicaten Exercise 11: Wat is een predicaat?Exercise 12: Data verkennen met predicaten

Klaar om dieper te gaan met functioneel programmeren en purrr? In dit hoofdstuk verkennen we het concept van functioneel programmeren, bekijken we foutafhandeling met onder andere safely() en possibly(), en introduceren we de functie compact() om je code op te schonen.

Exercise 1: Functioneel programmeren in R Exercise 2: Alles wat gebeurt is een functieaanroep Exercise 3: Pure functies herkennen Exercise 4: Tools voor functioneel programmeren in purrr Exercise 5: Veilig itereren

Huidige oefening

Exercise 6: Maak een functie Exercise 7: possibly() gebruiken Exercise 8: Een possibly()-variant van read_lines()Exercise 9: Alles in één aanroep Exercise 10: Omgaan met resultaten van adverbs Exercise 11: Onze functie purrrfectioneren Exercise 12: Statuscodes ophalen met GET()

In dit hoofdstuk gebruiken we purrr om code te schrijven die duidelijker, schoner en makkelijker te onderhouden is. We leren hoe je heldere functies schrijft met compose() en negate(). We gebruiken ook partial() om functies samen te stellen door argumenten van bestaande functies alvast in te vullen. Tot slot introduceren we list-kolommen: een handige datastructuur die helpt om schone code te schrijven met de Tidyverse.

Exercise 1: Waarom schonere code?Exercise 2: Hoe schrijf je compose()Exercise 3: Terug op kantoor Exercise 4: Functies bouwen met compose() en negate()Exercise 5: Bouw een functie Exercise 6: Tel de NA's Exercise 7: Argumenten vooraf invullen bij functies Exercise 8: Een content-extractor Exercise 9: Nog een extractor Exercise 10: Lijstkolommen Exercise 11: Over list-kolommen Exercise 12: Maak een data.frame met een lijst-kolom

We ronden alles wat we over purrr weten af met een casestudy. Hier gebruiken we purrr om data te analyseren die van Twitter is gescrapet. Met schone code organiseren we de data en identificeren we vervolgens Twitter-influencers van de RStudio-conferentie van 2018.

Exercise 1: De gegevensset verkennen Exercise 2: Spelen met tweets, ronde 1 Exercise 3: Profielen identificeren Exercise 4: Informatie uit de gegevensset halen Exercise 5: Favorieten tellen Exercise 6: Mentions extraheren Exercise 7: URL's manipuleren Exercise 8: URL's analyseren Exercise 9: Spelen met URL’s Exercise 10: Influencers identificeren Exercise 11: De gegevensset opsplitsen Exercise 12: We hebben een winnaar!Exercise 13: Gefeliciteerd!