03 apr. 2025 | 17:59

Wikimedia, obosită de traficul generat de inteligența artificială care încearcă să „învețe”. Ce soluții se propun

ACTUALITATE
Wikimedia, obosită de traficul generat de inteligența artificială care încearcă să „învețe”. Ce soluții se propun
The Information

Fundația Wikimedia a anunțat recent că traficul generat de boturile automate destinate antrenării modelelor de inteligență artificială a pus o presiune semnificativă pe serverele Wikipedia.

Din ianuarie 2024, acestea au crescut utilizarea lățimii de bandă pentru descărcarea conținutului multimedia cu 50%, ceea ce a dus la creșterea costurilor tehnice și financiare pentru Wikimedia.

În ciuda contribuțiilor semnificative ale platformei, traficul boturilor a dus la o utilizare excesivă a resurselor, fără a aduce beneficii directe pentru comunitatea Wikimedia.

Impactul boturilor asupra infrastructurii Wikimedia, un dezastru

Wikimedia, care găzduiește platforme precum Wikipedia și Wikimedia Commons, unde sunt stocate aproximativ 144 de milioane de fișiere media sub licențe deschise, se confruntă cu un fenomen tot mai des întâlnit în comunitatea software-ului open-source: scraping-ul automatizat.

Aceste boturi, care colectează date pentru modelele de inteligență artificială, accesează masiv și rapid fișierele de pe platformele Wikimedia. În ciuda beneficiilor evidente ale Wikimedia pentru dezvoltarea AI, traficul generat automat pune în pericol sustenabilitatea infrastructurii comunității.

Problema devine evidentă atunci când sunt analizate cazurile de trafic masiv simultan. De exemplu, la moartea fostului președinte al SUA, Jimmy Carter, în decembrie 2024, pagina sa Wikipedia a înregistrat milioane de accesări.

Însă stresul real a fost cauzat de faptul că utilizatorii au vizionat un video lung de 1,5 ore de pe Wikimedia Commons. Aceasta a dus la dublarea traficului normal, iar unele conexiuni de internet au fost temporar supraîncărcate.

În mod surprinzător, mare parte din lățimea de bandă a fost deja folosită de boturile care făceau scraping pe platformă, înainte ca utilizatorii reali să acceseze conținutul, scrie ArsTechnica.

Ce soluții se pot găsi pentru echilibrarea accesului la infrastructură

Fundația Wikimedia spune faptul că accesul liber la informație nu înseamnă lipsă de costuri pentru infrastructura necesară susținerii acestui acces.

Deși multe companii AI se bazează pe informațiile oferite de platforme precum Wikimedia pentru a antrena modelele comerciale, acestea nu contribuie la susținerea infrastructurii care face posibil accesul liber la aceste cunoștințe. Acest lucru creează un dezechilibru tehnic ce amenință sustenabilitatea platformelor comunitare.

În acest context, Wikimedia a lansat inițiativa WE5, adică utilizarea responsabilă a infrastructurii. Scopul acesteia este de a încuraja dezvoltatorii să adopte metode de acces mai eficiente din punct de vedere al resurselor, pentru a menține deschiderea și accesibilitatea cunoștințelor fără a pune în pericol resursele platformei.

Colaborarea între dezvoltatorii de AI și furnizorii de resurse ar putea rezolva aceste probleme prin crearea de API-uri dedicate, finanțarea infrastructurii comune sau prin îmbunătățirea modelelor de acces.

În lipsa unei colaborări practice, platformele care au permis avansul AI riscă să nu poată susține în continuare servicii fiabile.