Een terugkerende ergernis voor datajournalisten: werken met bedrijfsnamen. Stel je hebt een dataset van uitgekeerde onderzoeksgelden en -subsidies en een dataset van bedrijven die lid zijn van een lobbyvereniging. Dan wil je die twee datasets kunnen koppelen. Het liefste doe je dat op bedrijfsnaam (of een index, die naar zo’n bedrijfsnaam verwijst, maar dat is een andere zaak).
Het lastige is alleen dat bedrijfsnamen overal weer anders worden geschreven. Het bedrijf Shell kun je op tientallen verschillende manieren schrijven: Royal Dutch Shell, RDS, Koninklijke Shell, Shell NV, Shell N.V., of gewoon, Shell.
En dan hebben we het nog niet eens over allerlei toevoegingen in andere landen, zoals Shell Nigeria, Shell Ltd., Shell Inc.. Een computer zal deze verschillende namen niet als één en dezelfde entiteit herkennen. Die moet je dus slimmer maken.
Dit is een probleem waar we zo vaak tegenaan lopen dat we er eigenlijk een meer structurele oplossing voor willen vinden. En ook hier kunnen we kunstmatige intelligentie gebruiken, hoewel deze tools meer tot het domein van de statistiek horen (het onderscheid tussen AI en statistiek is niet altijd heel scherp).
Zo is er een aantal nuttige NLP-pakketten waarmee je een model kunt trainen om entiteiten zoals bedrijven te herkennen (SpaCy bijvoorbeeld). Of zijn er handige Pythonmodules (NLTK, fuzzywuzzy (die geen AI is)) om namen te normaliseren, zodat bedrijfsnamen zoveel mogelijk hetzelfde worden geschreven zodat je ze makkelijker kunt koppelen.
Ik zal jullie hier op de hoogte houden van hoe deze pogingen verlopen. En mocht je ideeën hebben voor toepassingen die voor ons nuttig zijn, dan horen we dat natuurlijk graag.
Nog een fijne dag,
|