Η εντυπωσιακή αύξηση των δυνατοτήτων των τεχνητών νοημοσύνων (AI) δεν συνοδεύεται από την αντίστοιχη βελτίωση της αξιοπιστίας τους, ένα ζήτημα που αναδεικνύεται ως σοβαρή πρόκληση για την ευρεία υιοθέτηση της τεχνολογίας. Παρόλο που οι «deep research» agents είναι διαθέσιμοι εδώ και πάνω από ένα χρόνο, οι νεότερες εκδόσεις που αλληλεπιδρούν με υπολογιστές παρουσιάζουν σημαντική ασυνέπεια. Για παράδειγμα, ενώ ένας agent κατάφερε να κλείσει ραντεβού σε κέντρο ανακύκλωσης, απέτυχε παταγωδώς να διερευνήσει επιλογές πτήσεων για ένα επαγγελματικό ταξίδι, καταναλώνοντας παράλληλα πόρους για 45 λεπτά.
Παρόμοιες εμπειρίες καταγράφονται και σε άλλες πλατφόρμες. Στο Λονδίνο, κατά τη διάρκεια ενός demo event της Anthropic, ένας agent δυσκολεύτηκε αρχικά να εκτελέσει μια απλή ταξινόμηση δεδομένων σε υπολογιστικό φύλλο, ενώ αργότερα δημιούργησε ένα σύνθετο μοντέλο πρόβλεψης προϋπολογισμού χωρίς εμφανή προβλήματα. Σε άλλη περίπτωση, ένας agent που σχεδίασε ένα παιχνίδι στρατηγικής, ενώ φάνηκε εντυπωσιακός εξωτερικά, δεν είχε λογική συνοχή εσωτερικά.
Η αναξιότητα αποτελεί μείζον μειονέκτημα των σημερινών AI agents. Ερευνητές από το Πανεπιστήμιο του Princeton, Sayash Kapoor και Arvind Narayanan, υπογραμμίζουν την ανάγκη συστηματικής αξιολόγησης της αξιοπιστίας. Σε μια πρόσφατη μελέτη τους, αξιολογούν τα μοντέλα με βάση τέσσερις διαστάσεις: συνέπεια (σταθερή απόδοση στην ίδια εργασία), ανθεκτικότητα (λειτουργία υπό μη ιδανικές συνθήκες), βαθμονόμηση (ακριβής αίσθηση βεβαιότητας) και ασφάλεια (συνέπειες λαθών).
Η έρευνα, που εξέτασε προηγμένα μοντέλα όπως τα GPT-5.2, Claude Opus 4.5 και Gemini 3 Pro, διαπίστωσε ότι ενώ η αξιοπιστία βελτιώνεται με κάθε νέα έκδοση, η πρόοδος είναι πολύ πιο αργή σε σύγκριση με την αύξηση της μέσης ακρίβειας. Συγκεκριμένα, η βελτίωση της αξιοπιστίας ήταν μισή από αυτήν της ακρίβειας σε ένα γενικό benchmark για agents και μόλις ένα έβδομο σε ένα benchmark για ερωτήματα υποστήριξης πελατών.
Συγκεκριμένα, τα μοντέλα Claude Opus 4.5 και Gemini 3 Pro πέτυχαν την υψηλότερη συνολική αξιοπιστία, στο 85%. Ωστόσο, η λεπτομερής ανάλυση ανέδειξε αδυναμίες. Το Gemini 3 Pro είχε χαμηλή απόδοση στην εκτίμηση της ακρίβειας των απαντήσεών του (52%) και ήταν εξαιρετικά προβληματικό στην αποφυγή καταστροφικών λαθών (25%). Το Claude Opus 4.5, αν και το πιο συνεπές, είχε ποσοστό συνέπειας μόλις 73%.
Οι ερευνητές τονίζουν ότι η αξιοπιστία δεν είναι μονοδιάστατη. Σε περιπτώσεις που η AI λειτουργεί συμπληρωματικά προς τον άνθρωπο, μια χαμηλότερη συνέπεια και ανθεκτικότητα μπορεί να είναι αποδεκτή, καθώς ο άνθρωπος λειτουργεί ως δίχτυ ασφαλείας. Ωστόσο, για πλήρως αυτοματοποιημένες εργασίες, η αξιοπιστία αποτελεί απαραίτητη προϋπόθεση. Ένας agent που πετυχαίνει στο 90% των εργασιών αλλά αποτυγχάνει απρόβλεπτα στο υπόλοιπο 10% μπορεί να είναι χρήσιμος βοηθός, αλλά μη αποδεκτό αυτόνομο σύστημα.
Η ανάγκη για αξιολόγηση της αξιοπιστίας, πέραν της απλής ακρίβειας, είναι επιτακτική. Μια άλλη πρόσφατη μελέτη, που εξέτασε τη συνδυαστική λειτουργία τριών ιατρικών εργαλείων AI, έδειξε ότι παρόλο που κάθε εργαλείο είχε υψηλή ακρίβεια (90%, 85% και 97% αντίστοιχα), η συνολική αξιοπιστία του συστήματος έφτασε μόλις το 74%, αφήνοντας περιθώριο για πιθανή λανθασμένη διάγνωση στο ένα τέταρτο των ασθενών. Η αταραξία μπορεί να είναι χόμπι μικρών μυαλών, αλλά η χάος που προκαλούν οι σημερινοί agents είναι πιο ανησυχητικό.