Cloudflare heeft Perplexity AI publiekelijk beschuldigd van het gebruik van heimelijke, niet-aangegeven webcrawlers om de standaard botbeperkingen van websites te omzeilen. In een gedetailleerde blogpost beweerde Cloudflare dat Perplexity niet alleen robots.txt-richtlijnen negeert, maar ook alternatieve IP-bereiken en cloaked user agents gebruikt om de activiteit van zijn web-scraping-infrastructuur te maskeren.
De focus van debeschuldigingis dat Perplexity een algemene webstandaard omzeilt die wordt gebruikt om ongewenste indexering of scraping te voorkomen. Dit gebeurt wanneer een crawler een site bezoekt zonder zichzelf correct te identificeren, of wanneer hij actief detectie vermijdt door zichzelf verkeerd voor te stellen via misleidende user-agent strings of door afkomstig te zijn van een infrastructuur die niet is gekoppeld aan het bekende botnetwerk van het bedrijf. Volgens Cloudflare is dit precies wat Perplexity heeft gedaan.
Cloudflare merkte op dat de IP’s die bij de activiteit betrokken waren, niet overeenkwamen met de door Perplexity aangegeven crawlerinformatie. Er stond dat de openbare crawler van Perplexity, genaamd PerplexityBot, de opt-outregels respecteert. Het verkeer in kwestie kwam echter van een geheel andere infrastructuur, met generieke of lege user agents, en bleef gegevens opvragen, zelfs als websites crawlers expliciet hadden verboden. Cloudflare beweert dat wanneer ze deze bots blokkeerden, het verkeer naar een ander netwerk zou overschakelen om het opnieuw te proberen, wat wijst op opzettelijke ontwijking.
Perplexity reageerde op de beweringen dat het alleen toegang heeft tot openbare webpagina's en schreef de crawlactiviteit toe aan een externe provider. Het bedrijf ontkende niet rechtstreeks het gebruik van die gegevens in zijn producten. Cloudflare betoogde echter dat deze reactie het kernprobleem omzeilt: het verkeer kwam nog steeds op sites terecht zonder duidelijk aangegeven beperkingen, en het was terug te voeren op de backend-activiteiten van Perplexity.
De bredere zorg van Cloudflare is dat sommige AI-bedrijven steeds meer webstandaarden negeren, terwijl ze commerciële producten bouwen bovenop geschrapte inhoud. In het bericht werd benadrukt dat miljoenen websites die de diensten van Cloudflare gebruiken regels hebben opgesteld om specifieke crawlers of alle geautomatiseerde bots te blokkeren, en dat die regels moeten worden gerespecteerd door iedereen die te goeder trouw handelt. Cloudflare zei ook dat het werkt aan het versterken van zijn tools voor het beperken van bots en is begonnen dergelijke ontduikingstechnieken agressiever te blokkeren.
De spanning komt voort uit het toenemende toezicht op de manier waarop AI-bedrijven hun trainingsgegevens verkrijgen. Naarmate de concurrentie op het gebied van AI toeneemt, worden steeds meer bedrijven betrapt op het verleggen van de grenzen van ethische gegevensverzameling. Deze zaak waarbij Perplexity betrokken is, draagt bij aan een breder debat over transparantie, toestemming en hoe AI-tools moeten worden getraind.
Meer lezen:NLRB beschuldigt Apple ervan de vakbondsinspanningen in de winkel in New York te hebben verpletterd
