Perplexity, acuzat că fură conținut de pe site-urile mari. Potrivit startup-ului, botul „nu aparține companiei”
Cloudflare susține că startup-ul AI Perplexity ignoră intenționat restricțiile impuse prin fișierele Robots.txt și folosește metode de mascare pentru a continua să extragă date de pe site-uri care interzic explicit accesul boturilor AI.
Luni, Cloudflare a publicat o analiză în care acuză startup-ul Perplexity că recurge la practici netransparente pentru a colecta conținut de pe internet, încălcând intenționat regulile impuse de proprietarii de site-uri, scrie TechCrunch.
Cloudflare acuză Perplexity că maschează intenționat activitățile de scraping
Conform raportului, compania a detectat milioane de cereri zilnice din partea unor crawlere asociate cu Perplexity, care ignorau setările din fișierele Robots.txt, un standard web folosit pentru a bloca accesul motoarelor de căutare și roboților AI la anumite secțiuni ale unui site.
Chiar mai mult, Cloudflare susține că Perplexity și-ar fi mascat identitatea modificând „user-agent”-ul, identificatorul tehnic al unui bot sau browser, și schimbând periodic rețelele ASN (Autonomous System Number), pentru a evita detectarea și blocarea.
Activitatea ar fi fost observată pe zeci de mii de domenii, iar identificarea botului s-a făcut prin tehnici de machine learning combinate cu analiza semnalelor de rețea.
Într-un mesaj adresat TechCrunch, Jesse Dwyer, purtătorul de cuvânt al Perplexity, a respins acuzațiile și a calificat postarea Cloudflare drept „o prezentare de vânzări”, susținând că „nu a fost accesat niciun conținut” și că botul menționat în raport „nu aparține companiei”.
Totuși, Cloudflare afirmă că a pornit propria investigație după ce mai mulți clienți s-au plâns de faptul că Perplexity continuă să extragă conținut în ciuda regulilor impuse special pentru a-i bloca accesul.
Testele interne ar fi confirmat că startup-ul folosește inclusiv un agent generic care imită browserul Google Chrome pe macOS, atunci când botul oficial este restricționat.
Tensiuni în creștere între publisheri și startup-urile AI
Cloudflare a reacționat public prin măsuri concrete: a eliminat Perplexity de pe lista sa de roboți AI verificați și a implementat noi metode pentru a-i bloca accesul.
Compania a devenit recent una dintre vocile proeminente care critică modul în care AI-ul colectează date de pe internet.
În iulie, a lansat un marketplace prin care editorii de site-uri pot percepe taxe roboților AI care le accesează conținutul, în încercarea de a restabili un echilibru economic între creatori și agregatori.
Matthew Prince, CEO-ul Cloudflare, a avertizat că AI-ul riscă să submineze modelul de afaceri al internetului, în special în ceea ce privește publicațiile de știri.
În același spirit, compania a pus la dispoziție, încă din 2024, un instrument gratuit pentru blocarea automată a roboților AI care încearcă să extragă date în scopuri de antrenare a modelelor lingvistice.
Perplexity nu este la prima acuzație de acest tip. În 2024, mai multe publicații, inclusiv Wired, au susținut că startup-ul AI le plagiază conținutul.
CEO-ul Perplexity, Aravind Srinivas, nu a reușit atunci să ofere o definiție clară a plagiatului într-un interviu acordat în cadrul TechCrunch Disrupt.