Perplexity, acuzat că fură conținut de pe site-urile mari. Potrivit startup-ului, botul „nu aparține companiei”

TEHNOLOGIE

Fură Perplexity date de pe site-uri? / Foto: Entrepreneur

Cloudflare susține că startup-ul AI Perplexity ignoră intenționat restricțiile impuse prin fișierele Robots.txt și folosește metode de mascare pentru a continua să extragă date de pe site-uri care interzic explicit accesul boturilor AI.

Luni, Cloudflare a publicat o analiză în care acuză startup-ul Perplexity că recurge la practici netransparente pentru a colecta conținut de pe internet, încălcând intenționat regulile impuse de proprietarii de site-uri, scrie TechCrunch.

Cloudflare acuză Perplexity că maschează intenționat activitățile de scraping

Conform raportului, compania a detectat milioane de cereri zilnice din partea unor crawlere asociate cu Perplexity, care ignorau setările din fișierele Robots.txt, un standard web folosit pentru a bloca accesul motoarelor de căutare și roboților AI la anumite secțiuni ale unui site.

Vezi și:

Câinii roboți care scanează pădurile pentru a preveni defrișările: Cum funcționează, de fapt, și cum ajută mediul

Investiția Nvidia–OpenAI de 100 de miliarde de dolari, în incertitudine: ce se întâmplă cu una dintre cele mai mari alianțe din inteligența artificială

Chiar mai mult, Cloudflare susține că Perplexity și-ar fi mascat identitatea modificând „user-agent”-ul, identificatorul tehnic al unui bot sau browser, și schimbând periodic rețelele ASN (Autonomous System Number), pentru a evita detectarea și blocarea.

Activitatea ar fi fost observată pe zeci de mii de domenii, iar identificarea botului s-a făcut prin tehnici de machine learning combinate cu analiza semnalelor de rețea.

Într-un mesaj adresat TechCrunch, Jesse Dwyer, purtătorul de cuvânt al Perplexity, a respins acuzațiile și a calificat postarea Cloudflare drept „o prezentare de vânzări”, susținând că „nu a fost accesat niciun conținut” și că botul menționat în raport „nu aparține companiei”.

Totuși, Cloudflare afirmă că a pornit propria investigație după ce mai mulți clienți s-au plâns de faptul că Perplexity continuă să extragă conținut în ciuda regulilor impuse special pentru a-i bloca accesul.

Testele interne ar fi confirmat că startup-ul folosește inclusiv un agent generic care imită browserul Google Chrome pe macOS, atunci când botul oficial este restricționat.

Tensiuni în creștere între publisheri și startup-urile AI

Cloudflare a reacționat public prin măsuri concrete: a eliminat Perplexity de pe lista sa de roboți AI verificați și a implementat noi metode pentru a-i bloca accesul.

Compania a devenit recent una dintre vocile proeminente care critică modul în care AI-ul colectează date de pe internet.

În iulie, a lansat un marketplace prin care editorii de site-uri pot percepe taxe roboților AI care le accesează conținutul, în încercarea de a restabili un echilibru economic între creatori și agregatori.

Matthew Prince, CEO-ul Cloudflare, a avertizat că AI-ul riscă să submineze modelul de afaceri al internetului, în special în ceea ce privește publicațiile de știri.

În același spirit, compania a pus la dispoziție, încă din 2024, un instrument gratuit pentru blocarea automată a roboților AI care încearcă să extragă date în scopuri de antrenare a modelelor lingvistice.

Perplexity nu este la prima acuzație de acest tip. În 2024, mai multe publicații, inclusiv Wired, au susținut că startup-ul AI le plagiază conținutul.

CEO-ul Perplexity, Aravind Srinivas, nu a reușit atunci să ofere o definiție clară a plagiatului într-un interviu acordat în cadrul TechCrunch Disrupt.