Η εταιρεία τεχνητής νοημοσύνης Anthropic ανακοίνωσε την Τρίτη ότι ανέστειλε την ευρύτερη διάθεση του νεότερου μοντέλου της, Mythos, εξαιτίας ανησυχιών ότι είναι υπερβολικά ικανό στον εντοπισμό “ευπαθειών υψηλής σοβαρότητας” σε μεγάλα λειτουργικά συστήματα και φυλλομετρητές. “Η μεγάλη αύξηση των δυνατοτήτων του Claude Mythos Preview μας οδήγησε στην απόφαση να μην το κάνουμε γενικά διαθέσιμο”, ανέφερε η Anthropic στην κάρτα συστήματος του preview. “Αντίθετα, το χρησιμοποιούμε ως μέρος ενός αμυντικού προγράμματος κυβερνοασφάλειας με ένα περιορισμένο σύνολο συνεργατών.”
Η ανακοίνωση αυτή αποτελεί ένα σημαντικό βήμα για την Anthropic, η οποία τον Φεβρουάριο είχε αποδυναμώσει μια δέσμευση ασφαλείας σχετικά με τον τρόπο ανάπτυξης μοντέλων AI. Το Claude Opus 4.6, το οποίο η εταιρεία χαρακτήρισε ως το πιο ισχυρό μοντέλο της μέχρι σήμερα, κυκλοφόρησε δημόσια στις 5 Φεβρουαρίου.
Στις δηλώσεις της σχετικά με το Mythos, η Anthropic λεπτομερώς περιέγραψε μια σειρά από εντυπωσιακά ευρήματα και επεισόδια, συμπεριλαμβανομένης της δυνατότητας του μοντέλου να ακολουθεί οδηγίες που το ενθάρρυναν να ξεφύγει από ένα εικονικό “sandbox”. “Το μοντέλο πέτυχε, επιδεικνύοντας μια δυνητικά επικίνδυνη ικανότητα παράκαμψης των μέτρων ασφαλείας μας”, επανέλαβε η Anthropic στην κάρτα ασφαλείας. “Στη συνέχεια προχώρησε σε περαιτέρω, πιο ανησυχητικές ενέργειες.”
Ένας ερευνητής είχε ενθαρρύνει το Mythos να βρει έναν τρόπο να στείλει ένα μήνυμα, εάν κατάφερνε να αποδράσει. “Ο ερευνητής έμαθε για αυτή την επιτυχία λαμβάνοντας ένα απροσδόκητο email από το μοντέλο, ενώ έτρωγε ένα σάντουιτς σε ένα πάρκο”, ανέφερε η Anthropic. Το μοντέλο, προφανώς, έκρινε ότι αυτό δεν ήταν αρκετό και βρήκε έναν άλλο τρόπο να επιδείξει την επιτυχία του. “Σε μια ανησυχητική και αζήτητη προσπάθεια να αποδείξει την επιτυχία του, δημοσίευσε λεπτομέρειες σχετικά με την εκμετάλλευσή του σε πολλαπλούς, δύσκολα εντοπίσιμους, αλλά τεχνικά δημόσιους, ιστότοπους”, έγραψε η Anthropic.
Η Anthropic δεν αποκάλυψε όλες τις λεπτομέρειες για τις ευπάθειες κυβερνοασφάλειας που βρήκε το Mythos, αλλά ανέδειξε μερικές. Το μοντέλο AI “βρήκε μια 27 ετών ευπάθεια στο OpenBSD – το οποίο έχει τη φήμη ενός από τα πιο ασφαλή λειτουργικά συστήματα στον κόσμο”, ανέφερε η εταιρεία. Το Mythos ήταν τόσο ισχυρό που ακόμη και “μη ειδικοί” θα μπορούσαν να εκμεταλλευτούν τις δυνατότητές του. “Μηχανικοί στην Anthropic χωρίς επίσημη εκπαίδευση στην ασφάλεια ζήτησαν από το Mythos Preview να βρει ευπάθειες απομακρυσμένης εκτέλεσης κώδικα κατά τη διάρκεια της νύχτας, και ξύπνησαν το επόμενο πρωί με ένα πλήρες, λειτουργικό exploit”, έγραψε σε ανάρτηση στο blog η ομάδα Frontier Red Team της Anthropic. “Σε άλλες περιπτώσεις, είχαμε ερευνητές που ανέπτυξαν σκαλωσιές που επιτρέπουν στο Mythos Preview να μετατρέπει ευπάθειες σε exploits χωρίς καμία ανθρώπινη παρέμβαση.”
Συνολικά, η Anthropic αποφάσισε να μην κυκλοφορήσει δημόσια το Mythos. Αντίθετα, ελπίζει να κυκλοφορήσει τελικά “μοντέλα κλάσης Mythos” μόλις τεθούν σε ισχύ οι κατάλληλες διασφαλίσεις. “Ο απώτερος στόχος μας είναι να επιτρέψουμε στους χρήστες μας να αναπτύσσουν με ασφάλεια μοντέλα κλάσης Mythos σε μεγάλη κλίμακα – για σκοπούς κυβερνοασφάλειας, αλλά και για τα αμέτρητα άλλα οφέλη που θα προσφέρουν τέτοια ιδιαίτερα ικανά μοντέλα”, έγραψε η ομάδα στο blog. “Για να το επιτύχουμε αυτό, πρέπει επίσης να σημειώσουμε πρόοδο στην ανάπτυξη διασφαλίσεων κυβερνοασφάλειας (και άλλων) που ανιχνεύουν και εμποδίζουν τις πιο επικίνδυνες εξόδους του μοντέλου.”
Προς το παρόν, μόνο 11 άλλοι επιλεγμένοι οργανισμοί, συμπεριλαμβανομένων των Google, Microsoft, Amazon Web Services, Nvidia και JPMorgan Chase, θα έχουν πρόσβαση στο Mythos ως μέρος μιας ομάδας κυβερνοασφάλειας που ονομάζεται “Project Glasswing”. Η Anthropic παρέχει πιστώσεις χρήσης Mythos έως και 100 εκατομμυρίων δολαρίων ως μέρος αυτού που αποκαλεί “Project Glasswing”. Το πρόγραμμα κυβερνοασφάλειας ονομάστηκε προς τιμήν της πεταλούδας glasswing, μια μεταφορά που η εταιρεία χρησιμοποίησε για το πώς το Mythos μπόρεσε να βρει ευπάθειες κρυμμένες φανερά και την αποφυγή βλάβης μέσω της διαφάνειας σχετικά με τους κινδύνους.
Η είδηση ήρθε την ίδια ημέρα που τα Claude και Claude Code της Anthropic παρουσίασαν μια “μεγάλη διακοπή λειτουργίας”, το τελευταίο σημάδι αναπτυξιακών δυσκολιών, καθώς η startup AI αγωνίζεται να ανταποκριθεί στην ξαφνική δημοτικότητά της.