‘Dat zijn toch gewoon ál onze artikelen?’ – De Groene Amsterdammer

Docplayer.nl was lange tijd een van de belangrijkste piratennesten van het internet en een goudmijn voor hackers. Ze konden er terecht om privé-gegevens uit datalekken of sporen van rondslingerende aivd-rapporten op te vissen. Er staan volledig ingevulde cv’s op en belastingaangiften met de namen en bsn-s van echte mensen. Met die gegevens kunnen criminelen identiteitsfraude plegen of bij mensen inbreken.

De website is het geesteskind van de Russische internetondernemer Vladimir Nesterenko. Hij bouwde een systeem dat volautomatisch het internet afstruint op zoek naar allerlei bestanden, waaronder gelekte informatie. In 2017 bleek dat hij 4,3 miljoen documenten had verzameld afkomstig uit twintig landen. De Autoriteit Persoonsgegevens, de politie en het Nationaal Cybersecurity Centrum waren het erover eens: wat docplayer.nl doet, mag niet.

Inmiddels misbruiken ook de grote techbedrijven deze onbegrensde verzamelwoede om winst te maken. Docplayer.nl is de belangrijkste Nederlandstalige bron voor chatbots, blijkt uit onderzoek van De Groene Amsterdammer en Data School. Chatbots zoals ChatGPT worden sinds een half jaar massaal gebruikt door onder meer journalisten, bedrijven, studenten en scholieren. Je stelt een vraag en de computer formuleert via kunstmatige intelligentie in luttele seconden een ogenschijnlijk perfect antwoord. Maar hoe weet de computer wat hij moet zeggen? Om dat te ontdekken analyseerden wij de tweeënhalf miljoen websites in de grootste Nederlandse verzameling teksten waarmee chatbots worden getraind.

Techbedrijven zijn sinds kort heel gesloten over de bronnen die ze gebruiken, maar de meeste Nederlandse teksten waarop AI-modellen zoals ChatGPT worden getraind komen uit de database Common Crawl. Dat is een soort blauwdruk van het hele internet. Die lijst wordt door verschillende bedrijven op verschillende manieren gebruikt. Wij bekeken de teksten die Google eruit haalde: de MC4-dataset. Daarnaast vergeleken we de manier waarop Google teksten sorteert met het filter van GPT-3, de technologie achter het megapopulaire ChatGPT, en we zagen geen belangrijke verschillen. Ze gebruiken dus waarschijnlijk bijna dezelfde bronnen.

Die lijst omvat ruim veertig miljard woorden – genoeg om meer dan een half miljoen romans mee te vullen – en blijkt bol te staan van auteursrechtschendingen, privé-gegevens en nepnieuws. In de top-tweehonderd van meest geciteerde websites vonden we Wikipedia en ongeveer elke grote Nederlandse krant, en ook de neonazistische complotwebsite Stormfront. Die laatste staat maar één plek lager in de bronnenlijst dan RTL Nieuws. Van beide websites leert AI dus ongeveer evenveel.

Het ooit zo obscure docplayer.nl blijkt met 3,6 procent de belangrijkste bron. Dat betekent dat privé-informatie – zoals documenten met evaluaties van sollicitanten – niet langer slechts te vinden is door hackers op een relatief onbekende plek, maar nu met de juiste vragen op te diepen is door veelgebruikte chatbots. En heeft een chatbot gegevens eenmaal gezien, dan zal die ze niet snel weer vergeten.

In de lijst bronteksten konden we minstens vijf complete belastingaangiften terugvinden. We zagen bovendien verschillende websites over stambomen en genealogie en persoonlijke blogs en advertenties op Marktplaats en eBay. Heb je ooit een advertentie gemaakt met daarin je telefoonnummer, dan is er een grote kans dat AI dit heeft gezien. Die informatie is of was weliswaar publiekelijk beschikbaar, maar nooit eerder werden zoveel gegevens op deze manier aan elkaar gekoppeld – door een systeem dat er ook nog eens van wil leren en er nieuwe teksten van maakt.

Lees de onderzoeksverantwoording

Kunstmatige intelligentie kan niet zelf denken. Dat betekent dat alle informatie die eruit komt er op een gegeven moment ook in is gestopt, en andersom. Slaagt een chatbot voor je rijexamen theorie? Dan heeft-ie waarschijnlijk een paar behoorlijk ingevulde rijexamens als trainingsmateriaal gezien.

Afgelopen april onderzocht The Washington Post de datasets waarop populaire chatbots zijn gebouwd. De krant vond ‘gepatenteerde, persoonlijke en vaak aanstootgevende websites’.

OpenAI lanceerde de Chatbot gpt-3 in november 2022 en die kende niet alleen Engels maar ook Nederlands. Niet veel later volgden Microsoft, Google en Meta − en ook al hun bots ‘spraken’ Nederlands. ChatGPT kent feiten over de Nederlandse cultuur die duidelijk niet uit Engelse bronnen kunnen komen.

Dat is gek, want omdat populaire chatbots in de Verenigde Staten worden ontwikkeld, bestaan hun bronnen vooral uit teksten in het Engels. In Common Crawl, de database met zowat elke tekst op het hele internet, vind je teksten terug uit alle talen, waaronder het Nederlands. Die gelden als een soort bijvangst voor de Amerikaanse chatbots. Daarom wordt die informatie ook slechter gefilterd: veel vaker ‘hallucineren’ Nederlandse chatbots nepfeitjes bij gebrek aan goede informatie.

Het leegtrekken van het Nederlandstalige internet om AI mee te trainen levert drie grote problemen op: een stapel troep in de database, een grove schending van auteursrecht en een gevaarlijk grote verzameling privé-gegevens.

‘Het hangt van het type werk af of je ermee weg komt. Als het gaat om beeldende kunst: ’t mag’

De meeste websites op het internet zijn onbetrouwbaar of staan vol met vooroordelen, die chatbots overnemen. Dat verschijnsel heet in programmeerkringen het garbage in, garbage out-principe. Stop je er troep in, dan komt er ook troep uit. In ons onderzoek zien we dat terug: evidente complotwebsites worden buitensporig veel geciteerd.

In de top-tweehonderd van meest geciteerde websites vonden we het neonazistische Stormfront (plek 165), de complotsite Vrijspreker (169) en E.J. Bron (190). E.J. Bron is er ‘voor vrijheid van meningsuiting, tegen de islamisering van Europa, tegen de eussr, tegen de mainstream, voor het behoud van westerse waarden en tradities en pro-Israël’.

Al vanaf het eerste gebruik van ChatGPT waren er zorgen over de vooroordelen die het systeem in sluipen, of die nou politiek of maatschappelijk zijn. Uit een test van de Universiteit Leiden blijkt dat ChatGPT ook in Nederland een duidelijke politieke inslag heeft. Een masterstudent liet de bot de Stemwijzer van 2021 invullen, net als een test over politieke oriëntatie. De chatbot had een voorkeur voor SP, Denk en D66.

Als de trainingsgegevens van een chatbot niet betrouwbaar zijn, kan dat leiden tot het verspreiden van vooroordelen, propaganda en verkeerde informatie, zonder dat die informatie tot de oorspronkelijke bron te herleiden is. Bij meerdere chatbots, in het bijzonder die van Google, is aangetoond dat ze heel zelfverzekerd onjuiste informatie delen. Het probleem is dat voor de gebruiker niet doorzichtig is waar die informatie vandaan komt.

Internetteksten hebben meestal een ingebakken politieke kleur en vooroordelen, maar de mensen die AI controleren ook. Om echte troep uit de resultaten te filteren bedachten de makers van gpt-3 een extra controlemechanisme: door een algoritme zo veel mogelijk kwalitatief ‘goede’ teksten te voeren, leert de chatbot zelf wat een tekst goed maakt. Een website die het keurmerk ‘goed’ heeft meegekregen telt dan als belangrijker trainingsmateriaal. Maar wat is kwaliteit?

Het kwaliteitsfilter dat gpt-3 over de teksten uit Common Crawl legt, is gebaseerd op drie bronnen. gpt-3 gebruikt teksten van Wikipedia, die voor negentig procent door mannen zijn geschreven. Daarnaast baseert het zich op websites die veel gedeeld worden op het sociale-mediaplatform Reddit. En dan is er nog een mysterieuze collectie van boeken waarvan de inhoud tot op de dag van vandaag onbekend blijft. Het gevolg is dat zelfs het kwaliteitsfilter van gpt-3 overwegend de voorkeur geeft aan teksten van de rijke, witte en hoogopgeleide stedelijke Amerikaanse elite. Onderzoekers van de Universiteit van Washington noemen dat ‘de taalideologie van gpt-3’.

‘Hoe OpenAI precies filtert, dat weet ik niet’, zegt onderzoeker van kunstmatige intelligentie Pieter Delobelle. Hij werkt sinds 2019 bij de KU Leuven aan een Nederlandstalig taalverwerkingsmodel, RobBERT. Daarvoor gebruikt hij een gefilterde en op taal gesorteerde versie van Common Crawl, oscar. ‘De kwaliteit is niet heel goed, er zitten ook veel zaken in zoals menu’s van websites of cookie-banners.’

Dat ChatGPT zo goed Nederlands spreekt, komt doordat het overkoepelende structuren herkent in al die talen, legt Delobelle uit. Engelstalige websites helpen ChatGPT ook slimmer te worden in het Nederlands. Dat is ook de reden waarom de chatbot soms toch een beetje Amerikaans klinkt. Probleem: het kwaliteitsfilter herkent daardoor amper ‘slechte kwaliteit’ in Nederlandse teksten.

Voor Nederlandse teksten is OpenAI’s kwaliteitsfilter een behoorlijk brakke zeef, zo blijkt uit onze analyse. Het aandeel van de kwaliteitskranten stijgt iets, maar verder blijven de teksten van het discutabele docplayer.nl domineren. Vooral veel websites over games en technologie – doorgaans doorspekt met Engelse termen – krijgen de voorkeur.

Een vakspecifieke toepassing, zoals een chatbot van een ziekenhuis, wordt meestal gebouwd boven op de bestaande chatbot, vertelt Delobelle. ‘Als het bestaande systeem dus ingebouwde vooroordelen heeft, zoals een voorkeur van mannen boven vrouwen, kan het zijn dat die voorkeur doorsijpelt.’

De populairste Nederlandse bronnen voor AI

‘Beschermde content’ van kwaliteitsmedia komt ook veel voor in de database, maar zonder dat er ooit een euro is afgerekend voor het gebruik daarvan. In de top-honderd vonden we onder meer de NRC (plek 4), de Volkskrant (17), De Standaard (57), De Telegraaf (59), De Groene Amsterdammer (61) en de NOS (81).

‘Dat zijn toch gewoon ál onze artikelen?’ Volkskrant-hoofdredacteur Pieter Klok telt het even na. Er staan 162.000 unieke teksten in het corpus en het afgelopen jaar publiceerde de krant ongeveer zeventienduizend artikelen. Teruggerekend zijn de chatbots dus getraind op ongeveer tien jaar aan werk van Volkskrant-journalisten. ‘Onze hele productie’, concludeert Klok droogjes. ‘Dat hebben ze handig gedaan.’

De discussie over wat hieraan te doen is binnen de Volkskrant loopt, zegt Klok. ‘Er wordt gezegd: dit is de nieuwe realiteit. Tot nu toe konden mensen bij Google een vraag intypen en dan komt een Volkskrant-stuk bovendrijven, maar bij een chatbot zie je die informatie in een nieuw jasje – zonder dat wij worden genoemd. Dat is zeer ongewenst en een grove schending van het auteursrecht. Daar moet je je niet zomaar bij neerleggen.’

‘Als het bestaande systeem ingebouwde vooroordelen heeft, kan die voorkeur doorsijpelen’

Als er een zwak slot op je deur hangt, betekent dat nog niet dat een dief zomaar naar binnen mag lopen om je spullen te pakken, zegt NRC-hoofdredacteur René Moerland. Zijn krant is de vierde grootste bron in de lijst, met ruim 594.000 gebruikte artikelen. ‘We weten in het algemeen dat chatbots zich weinig aantrekken van betaalmuren’, zegt hij. ‘Grote techbedrijven weten dat ze het eigendom hebben te respecteren van andere bedrijven.’

Dat dat niet gebeurt, voelt als een maatschappelijke dreiging, zegt hij. ‘Als je het binnen de journalistiek over eigendom en auteursrecht hebt, dan gaat het om het weefsel van de samenleving. Het gaat over hoe wij opereren, hoe je journalistiek kunt maken. Als je de economische grondslag onder ons werk wegtrekt, dan hebben we ook een maatschappelijk probleem. Dat ligt bij ons absoluut op tafel.’

Dit is wel de wijze waarop heel veel diensten zijn ontstaan, zegt advocaat Christiaan Alberdingk Thijm, medeoprichter van bureau Brandeis, dat gespecialiseerd is in privacy- en auteursrecht. ‘YouTube is ook ooit begonnen doordat er eerst heel veel inbreuk werd gemaakt op auteursrecht. Pas toen het eenmaal populair was, is het content moderation gaan toepassen en informatiefilters gaan inzetten. Google Books maakte ook veel inbreuk, en Google News is al jaren een doorn in het oog van persuitgevers. Pas sinds kort is er Europese wetgeving gekomen om uitgevers te beschermen tegen het online rippen van een verzameling nieuwsartikelen.’

Als er wetten worden overtreden, zoals het auteursrecht, moet juridische actie worden ondernomen, vindt Pieter Klok. ‘Wat de beste tegenreactie is, is voer voor juristen.’ René Moerland wil in gesprek met de rest van de sector over hoe de journalistiek zich tegen zulke praktijken kan verweren. Bovenal hoopt Moerland op strenge wetten die het verzamelen van de artikelen achter betaalmuren tegengaan, en op medewerking van de grote techbedrijven die die gegevens nu inzetten. ‘Ik denk dat het aan de bedrijven achter de chatbots is om transparantie te bieden in wat ze gebruiken. Dan kunnen we er pas een gesprek over voeren.’

De vraag is, zegt advocaat Alberdingk Thijm, of je erachter komt. ‘Je weet vaak niet of je teksten als bronmateriaal dienen voor een chatbot. Tot je toevallig een zinnetje of iets anders ziet in de resultaten.’ Bij het trainen van bots gebeuren drie dingen die allemaal niet zomaar mogen. Het begint bij het verzamelen van materiaal uit een grote database, zoals de bestanden van grote kranten. ‘Dan is er het opslaan ervan en uiteindelijk het hergebruik om AI ermee te trainen. Dat gebeurt allemaal vaak onder de radar en dat maakt het ontzettend lastig om er de vinger op te leggen of er iets is gebeurd wat niet mag.’

En dan is er nog het reproduceren. ‘Het hangt van het type werk af of je ermee weg kunt komen. Als het gaat om vormgeving of beeldende kunst, waarin een stijl kan worden gekopieerd zoals van Rembrandt of Van Gogh: dat mag. Dus als er geen beschermde elementen zijn opgenomen in het eindresultaat, zoals één op één een stuk tekst, dan wordt het lastig om erachteraan te gaan.’

Afgelopen april riep de Italiaanse toezichthouder op tot een verbod op ChatGPT omdat het zonder toestemming bergen gegevens verwerkt van internetgebruikers. Privacywaakhonden in Duitsland, Frankrijk en Ierland volgden − ook in die landen wordt nu onderzocht of ChatGPT de privacywet schendt. Topman Sam Altman dreigde in mei dat zijn bedrijf de EU zou verlaten als OpenAI niet blijkt te voldoen aan onze wetgeving. ‘Het huidige ontwerp van de AI-wet van de Europese Unie zou te veel reguleren’, zei hij tegen Reuters.

Volgens de Europese privacywet avg heeft elke burger het recht om te controleren of een bedrijf zijn of haar gegevens opslaat, en om een verzoek in te dienen om die gegevens te laten verwijderen. Die mogelijkheid bieden de meeste chatbots helemaal niet. En iets als een cv-bank leegtrekken, dat is al snel strijdig met de avg, zegt Alberdingk Thijm.

De persoonlijke informatie van docplayer.nl was op de website zélf al in strijd met de wet, laat staan wanneer die ook nog eens in chatbots wordt verwerkt. En zo staan er wel meer twijfelachtige websites hoog in de Nederlandstalige bronnenlijst, waaronder op plek 46 slideshare.net – daarop kunnen mensen presentaties maken en delen.

Onderzoeker Pieter Delobelle herkent het probleem van gebruikersgegevens die oefenteksten insluipen. ‘We hadden bijvoorbeeld een dataset van een Vlaams uitzendbureau. Het kan leuk zijn om een model te bouwen waarmee je een cv kunt genereren.’ Het probleem, zegt hij, is dat je de kans loopt dat je model letterlijk het cv van een bestaande persoon uitspuugt. ‘Toen we dat zagen, besloten we dat we niet in die richting verder wilden gaan. Je wil niet dat persoonlijke informatie per ongeluk publiek wordt gemaakt. Liever zoek je een technische oplossing, zodat je programma geen persoonlijke informatie verspreidt. Zulke dingen staan nog in de kinderschoenen.’

‘De ontwikkelingen gaan supersnel’, zegt jurist Alberdingk Thijm. Vandaar dat er in Nederland nog weinig rechtszaken zijn geweest over de data van Google en OpenAI. ‘De gemiddelde Nederlander kwam rond Kerst vorig jaar in aanraking met ChatGPT. Toen Bard, de chatbot van Google, werd gelanceerd, gebeurde dat wereldwijd, overal behalve in Europa. Dat kan privacy- en auteursrechtgelateerd zijn. Europa wil echt voorop lopen wat wetgeving betreft en de ethische kant breed reguleren. Ik kan me voorstellen dat Google dacht: voorlopig even niet.’