Un sistem de management al conținutului configurat greșit a expus existența celui mai puternic model de inteligență artificială al Anthropic până în prezent, un sistem nelansat numit “Claude Mythos” care, spune compania, reprezintă “o schimbare radicală” în capacitățile AI — și de care se teme că ar putea amplifica masiv atacurile cibernetice.
Fortune a raportat joi că descrierile modelului au fost găsite într-un cache de date accesibil public care conținea drafturi de postări pe blog și documente interne. Cercetătorii în securitate cibernetică Roy Paz de la LayerX Security și Alexandre Pauwels de la Universitatea Cambridge au localizat și examinat independent materialul, care includea aproape 3.000 de asset-uri nepublicate legate de blogul Anthropic. După ce Fortune a contactat compania, Anthropic a eliminat accesul public la depozitul de date.
Un nou nivel de AI
Conform proiectului de postare pe blog scurs în presă, Claude Mythos introduce un nou nivel de model numit „Capybara”, descris ca fiind „mai mare și mai inteligent decât modelele noastre Opus — care, până acum, erau cele mai puternice”. Documentul precizează că, în comparație cu Claude Opus 4.6, cel mai bun model anterior al Anthropic, „Capybara obține scoruri dramatic mai mari la teste de programare software, raționament academic și securitate cibernetică, printre altele”.

Un purtător de cuvânt Anthropic a confirmat pentru Fortune că compania „dezvoltă un model cu scop general care aduce progrese semnificative în raționament, programare și securitate cibernetică” și l-a numit „cel mai capabil pe care l-am construit până în prezent”. Compania a declarat că lucrează cu „un grup mic de clienți cu acces anticipat pentru a testa modelul”.
Alarmă de Securitate Cibernetică
Materialele scurse prezintă o imagine sumbră a potențialului de utilizare duală al modelului. Propriul document preliminar al Anthropic avertiza că Claude Capybara este „în prezent cu mult înaintea oricărui alt model de inteligență artificială în ceea ce privește capacitățile cibernetice” și că „prevestește un val iminentși de modele care pot exploata vulnerabilități în moduri care depășesc cu mult eforturile apărătorilor”.
Pentru a gestiona acest risc, Anthropic a prezentat un plan de lansare a modelului mai întâi către organizațiile de securitate cibernetică, „oferindu-le un avantaj în îmbunătățirea robustetii bazelor lor de cod împotriva valului iminent de exploatări bazate pe inteligență artificială”. Documentul preliminar a menționat de asemenea că modelul este costisitor de rulat și nu este încă pregătit pentru lansarea generală.
Un tipar îngrijorător
Scurgerea de informații survine în contextul tensiunilor crescute legate de securitatea AI. În februarie, Anthropic a acuzat laboratoarele chineze de AI DeepSeek, Moonshot AI și MiniMax că au creat peste 24.000 de conturi frauduloase pentru a extrage capacitățile Claude prin distilare. Separat, Anthropic a dezvăluit că un grup sponsorizat de statul chinez a folosit Claude Code într-o campanie care a vizat aproximativ 30 de organizații, inclusiv companii tech și agenții guvernamentale.
Anthropic a atribuit expunerea datelor unui „error uman” în configurația CMS-ului său, unde activele digitale sunt implicit publice, cu excepția cazului în care sunt restricționate manual. Cache-ul a dezvăluit, de asemenea, detalii despre o retragere exclusivă a directorilor generali, organizată printr-un sistem de invitații la un conac englezesc din secolul al XVIII-lea, unde CEO-ul Anthropic, Dario Amodei, intenționează să prezinte capabilități neincluse încă ale Claude liderilor de afaceri europeni.
Surse:
