O eroare de configurare în sistemul de management al conținutului Anthropic a expus neintenționat aproape 3.000 de fișiere interne către public la sfârșitul lunii trecute, dezvăluind existența celui mai puternic model de inteligență artificială al companiei și declanșând alarma în întreaga industrie de securitate cibernetică. Printre documentele expuse se afla o postare de blog în draft care descria un model numit Claude Mythos — cu numele de cod intern „Capybara” — despre care Anthropic însuși a avertizat că prezintă „riscuri de securitate cibernetică fără precedent”.
Scurgerea de informații, raportată inițial de Fortune, a provocat de atunci reacții din partea unor personalități de seamă din finanțe și securitate cibernetică, iar CEO-ul JPMorgan Chase, Jamie Dimon, și CEO-ul Palo Alto Networks, Nikesh Arora, au emis fiecare avertismente severe despre ce înseamnă modelele de inteligență artificială din ce în ce mai capabile pentru securitatea digitală.
Ce s-a divulgat și de ce contează
Documentele expuse descriu Claude Mythos ca fiind “de departe cel mai puternic model de inteligență artificială pe care l-am dezvoltat vreodată” și “în prezent cu mult înaintea oricărui alt model AI în ceea ce privește capacitățile în domeniul cibernetic”, conform analizei materialelor realizate de Fortune. Anthropic a atribuit incidentul unei erori umane, afirmând că sistemul CMS utilizat pentru publicarea blogului companiei stabilește implicit accesul public la resursele digitale, cu excepția cazului în care un utilizator le marchează în mod explicit ca fiind private.

Doi cercetători în domeniul securității — Roy Paz de la LayerX Security și Alexandre Pauwels de la Universitatea Cambridge — au descoperit în mod independent depozitul de date accesibil public înainte ca Fortune să analizeze și să raporteze despre documente. Anthropic a descris fișierele expuse drept “schiță inițială a conținutului luat în considerare pentru publicare” și a restricționat rapid accesul.
Compania a confirmat că dezvoltă modelul, descriindu-l ca fiind “o schimbare radicală” în performanța inteligenței artificiale, cu progrese în raționament, programare și securitate cibernetică. Mythos este în prezent testat cu un grup restrâns de clienți cu acces timpuriu, iar Anthropic a semnalat o lansare treptată axată inițial pe apărătorii cibernetici. La câteva zile după aceea, o altă scurgere de informații a expus aproximativ 500.000 de linii de cod sursă pentru Claude Code, instrumentul de programare AI al Anthropic, după ce un fișier de depanare a fost inclus din greșeală într-un pachet npm public.
Liderii din industrie trag un semnal de alarmă
Într-un interviu acordat Axios, Dimon a declarat că a fost informat cu privire la modelul Mythos al Anthropic, care nu a fost încă lansat, și a avertizat că acesta ar putea „crește dramatic capacitatea hackerilor sau a adversarilor străini de a desfășura atacuri potențial catastrofale.” „AI face ca domeniul securității cibernetice — iar acești [agenți AI] fac ca securitatea cibernetică — să devină mult mai vulnerabilă”, a spus Dimon.
Arora, într-un eseu publicat pe site-ul Palo Alto Networks intitulat „Weaponized Intelligence” („Inteligență armată”), a scris că capacitățile modelelor de frontieră „nu mai sunt teoretice” și a avertizat că „un singur actor rău intenționat va putea acum să desfășoare campanii care odinioară necesitau echipe întregi.” El a descris acest moment drept „cel mai important din istoria industriei de securitate cibernetică” și a îndemnat specialiștii în apărare să integreze aceleași capabilități AI în instrumentele lor: „Atacatorii au acces la această tehnologie, la fel și noi. Strategia este clară: trebuie să luptăm cu AI împotriva AI.”
O dilemă cu dublă utilizare
Propriul proiect scurs al Anthropic a recunoscut tensiunea din inima Mythos, afirmând că modelul „prefigurează un val viitor de modele care pot exploata vulnerabilități în moduri care depășesc cu mult eforturile apărătorilor.” Compania a dezvăluit anterior că un grup sponsorizat de statul chinez a folosit Claude Code pentru a pătrunde în aproximativ 30 de organizații — inclusiv companii tech, instituții financiare și agenții guvernamentale — înainte ca Anthropic să detecteze și să oprească operațiunea.
„În pregătirea lansării Claude Capybara, dorim să acționăm cu prudență suplimentară și să înțelegem riscurile pe care le prezintă — chiar și dincolo de ceea ce aflăm în propriile noastre teste,” se arată în documentul scurs.
Surse:
https://mashable.com/article/claude-mythos-ai-model-anthropic-leak
