ChatGPT in het Nederlands
ChatGPT Nederland Community

OpenAI-Bot Zorgt voor Onbedoelde Overbelasting en Verontwaardiging

Een kleine onderneming met slechts zeven medewerkers zag zijn website crashen door de onverzadigbare honger van OpenAI’s GPTBot. Het ging mis omdat de bot, verspreid over honderden IP-adressen, enorme hoeveelheden beelden en productomschrijvingen probeerde te downloaden. Hierdoor werd de site van Triplegangers offline geduwd en liep hun AWS-factuur flink op. De kwestie benadrukt de risico’s van webscraping door AI, vooral als sites niet expliciet robots.txt instellen om dergelijke bots te weren.
OpenAI-bot zorgt voor onbedoelde overbelasting en verontwaardiging

Website ten onder door GPTBot

De e-commercewebsite van Triplegangers, met meer dan 65.000 producten en een veelvoud aan foto’s, ging plots offline. Het leek aanvankelijk op een DDoS-aanval, maar de boosdoener bleek OpenAI’s GPTBot te zijn. Doordat de bot foto’s en informatie probeerde te verzamelen, raakte de server overbelast. Triplegangers, dat 3D-modellen van echte mensen verkoopt, zag zijn belangrijkste verkoopkanaal tijdens cruciale Amerikaanse kantooruren wegvallen.

Onverwacht veel IP-adressen

Volgens CEO Oleksandr Tomchuk stuurde OpenAI “tientallen duizenden” verzoeken en gebruikte het meer dan 600 IP-adressen. Die overvloed aan IP’s werkte als een soort digitale stormram, waardoor de website volledig platging. Hoewel de voorwaarden van Triplegangers bots verbieden om zonder toestemming materiaal te halen, konden ze pas ingrijpen toen de schade al was aangericht.

Cruciale rol van robots.txt

OpenAI beroept zich op het gebruik van robots.txt om te bepalen of een website wel of niet toegankelijk is voor zijn crawlers. Als een site niet expliciet aangeeft dat GPTBot niet mag langskomen, zien AI-bedrijven het als een vrijbrief om te crawlen. Triplegangers paste uiteindelijk het robots.txt-bestand aan, wat ervoor zorgde dat GPTBot en andere bots werden geblokkeerd. Toch onderstreept dit volgens Tomchuk het probleem dat zo’n systeem niet standaard op ‘opt-in’ is ingesteld.

Hoge kosten en juridisch gevaar

De massale dataverzoeken zorgden niet alleen voor downtime, maar ook voor oplopende kosten bij Triplegangers. Het bedrijf gebruikt AWS en ziet een opgeblazen factuur tegemoet. Bovendien vreest het juridische complicaties, omdat het 3D-beelden van echte mensen aanbiedt. Europa’s GDPR beschermt persoonsgegevens, inclusief foto’s, dus ongeautoriseerde data-inwinning kan spanningen opleveren.

Andere bots en het grijze gebied

Niet alleen OpenAI’s GPTBot vormt een risico; SEO- en socialmediabots zoals Barkrowler en Bytespider hielden zich eveneens bezig met het verzamelen van content. AI-bedrijven opereren veelal in een grijs gebied waarin vrijwillige naleving van robots.txt centraal staat. Tomchuk benadrukt dat er geen sluitende garantie is dat dergelijke bots niet toch beelden en data meenemen.

Onwetende slachtoffers en verborgen scraping

Triplegangers ontdekte de invasie alleen maar omdat GPTBot de server in recordtempo bombardeerde. Als AI-crawlers voorzichtiger zouden te werk gaan, blijven ze vaak onopgemerkt. Veel kleinere sites hebben geen idee dat hun inhoud kan worden gebruikt voor AI-modellen. Het bedrijf raadt daarom aan om serverlogs nauwgezet te controleren om ongewenste bots te herkennen.

Waarschuwing en oproep tot aanpassing

Volgens Tomchuk is het nodig dat AI-bedrijven, waaronder nederlands chatgpt, “eerst toestemming vragen in plaats van automatisch te crawlen.” Hij pleit voor meer bewustzijn bij kleine ondernemers, die dankzij AI-technologie onbedoeld hun rechten kunnen verliezen en op hoge kosten worden gejaagd. Toch lijkt het erop dat de verantwoordelijkheid nu vooral bij de site-eigenaren ligt, die hun robots.txt correct moeten configureren en eventueel moeten investeren in extra beveiligingsoplossingen.