Cloudflare anklagar Perplexity för att undvika bot-restriktioner

Cloudflare har offentligt anklagat Perplexity AI för att använda smygande, odeklarerade sökrobotar för att kringgå standardbotrestriktioner som sätts av webbplatser. I ett detaljerat blogginlägg hävdade Cloudflare att Perplexity inte bara ignorerar robots.txt-direktiv utan också använder alternativa IP-intervall och cloaked användaragenter för att maskera aktiviteten i sin webbskrapningsinfrastruktur.

Fokus föranklagelseär att Perplexity kringgår en vanlig webbstandard som används för att förhindra oönskad indexering eller skrapning. Detta händer när en sökrobot går in på en webbplats utan att identifiera sig ordentligt, eller när den aktivt undviker upptäckt genom att missvisa sig själv genom vilseledande användaragentsträngar eller genom att komma från infrastruktur som inte är associerad med företagets kända botnätverk. Enligt Cloudflare är det precis vad Perplexity har gjort.

Cloudflare noterade att IP-adresserna som var involverade i aktiviteten inte matchade Perplexitys deklarerade sökrobotinformation. Det stod att Perplexitys offentliga sökrobot, som heter PerplexityBot, respekterar opt-out-reglerna. Trafiken i fråga kom dock från en helt annan infrastruktur, med generiska eller tomma användaragenter, och fortsatte att begära data även när webbplatser uttryckligen hade förbjudit sökrobotar. Cloudflare hävdar att när de blockerade dessa bots, skulle trafiken byta till ett annat nätverk för att försöka igen, vilket pekar på avsiktlig undanflykt.

Perplexity svarade på påståendena och sa att den bara kommer åt offentliga webbsidor och tillskrev genomsökningsaktiviteten till en tredjepartsleverantör. Företaget nekade inte direkt att använda dessa uppgifter i sina produkter. Cloudflare hävdade dock att detta svar kringgår kärnfrågan: trafiken träffade fortfarande webbplatser utan att följa tydligt uppsatta begränsningar, och det spårades tillbaka till Perplexitys backend-verksamhet.

Den bredare oro från Cloudflare är att vissa AI-företag i allt större utsträckning ignorerar webbstandarder samtidigt som de bygger kommersiella produkter ovanpå skrapat innehåll. Inlägget betonade att miljontals webbplatser som använder Cloudflares tjänster har satt upp regler för att blockera specifika sökrobotar eller alla automatiserade bots, och att dessa regler måste respekteras av alla som agerar i god tro. Cloudflare sa också att de arbetar för att stärka sina bot-reducerande verktyg och har börjat blockera sådana undanflyktstekniker mer aggressivt.

Spänningen kommer mitt i växande granskning av hur AI-företag skaffar sin utbildningsdata. I takt med att konkurrensen inom AI hårdnar, fångas fler företag när de tänjer på gränserna för etisk datainsamling. Detta fall som involverar Perplexity bidrar till en bredare debatt om transparens, tillstånd och hur AI-verktyg ska tränas.

Mer läsning:NLRB anklagar Apple för att krossa fackliga ansträngningar i butiken i NYC