or
Deze oefening maakt deel uit van de cursus
Reguliere expressies kunnen in het begin best intimiderend zijn, omdat ze vol staan met speciale tekens. In dit hoofdstuk leer je die te ontcijferen en je eigen patronen te schrijven om precies te vinden wat je zoekt.
Huidige oefening
In dit hoofdstuk stappen we even weg van reguliere expressies en richten we ons op tekenreeksmanipulatie door tekenreeksen te maken uit andere datastructuren zoals vectoren of lijsten.
Een taak waarin reguliere expressies echt uitblinken, is betekenis halen uit een lap tekst. In dit hoofdstuk leer je informatie te extraheren uit rommelige data die niet netjes in tabellen staat, maar als platte tekst voorkomt.
In het laatste hoofdstuk schakelen we over van reguliere expressies naar het begrijpen van tekenreeksafstanden. Door de verschillen tussen meerdere tekenreeksen te berekenen, kunnen we degene koppelen die op elkaar lijken. Zo vinden we duplicaten, zelfs als ze kleine fouten zoals typefouten bevatten. Dit is een belangrijk onderdeel van record linkage, waarbij we gegevenssets uit meerdere bronnen combineren.