Η Αξιόπιστη Αίσθηση της Τεχνητής Νοημοσύνης: Μια Πρόκληση για το Μέλλον

Η εντυπωσιακή αύξηση των δυνατοτήτων των τεχνητών νοημοσύνων (AI) δεν συνοδεύεται από την αντίστοιχη βελτίωση της αξιοπιστίας τους, ένα ζήτημα που αναδεικνύεται ως σοβαρή πρόκληση για την ευρεία υιοθέτηση της τεχνολογίας. Παρόλο που οι «deep research» agents είναι διαθέσιμοι εδώ και πάνω από ένα χρόνο, οι νεότερες εκδόσεις που αλληλεπιδρούν με υπολογιστές παρουσιάζουν σημαντική ασυνέπεια. Για παράδειγμα, ενώ ένας agent κατάφερε να κλείσει ραντεβού σε κέντρο ανακύκλωσης, απέτυχε παταγωδώς να διερευνήσει επιλογές πτήσεων για ένα επαγγελματικό ταξίδι, καταναλώνοντας παράλληλα πόρους για 45 λεπτά.

Παρόμοιες εμπειρίες καταγράφονται και σε άλλες πλατφόρμες. Στο Λονδίνο, κατά τη διάρκεια ενός demo event της Anthropic, ένας agent δυσκολεύτηκε αρχικά να εκτελέσει μια απλή ταξινόμηση δεδομένων σε υπολογιστικό φύλλο, ενώ αργότερα δημιούργησε ένα σύνθετο μοντέλο πρόβλεψης προϋπολογισμού χωρίς εμφανή προβλήματα. Σε άλλη περίπτωση, ένας agent που σχεδίασε ένα παιχνίδι στρατηγικής, ενώ φάνηκε εντυπωσιακός εξωτερικά, δεν είχε λογική συνοχή εσωτερικά.

Η αναξιότητα αποτελεί μείζον μειονέκτημα των σημερινών AI agents. Ερευνητές από το Πανεπιστήμιο του Princeton, Sayash Kapoor και Arvind Narayanan, υπογραμμίζουν την ανάγκη συστηματικής αξιολόγησης της αξιοπιστίας. Σε μια πρόσφατη μελέτη τους, αξιολογούν τα μοντέλα με βάση τέσσερις διαστάσεις: συνέπεια (σταθερή απόδοση στην ίδια εργασία), ανθεκτικότητα (λειτουργία υπό μη ιδανικές συνθήκες), βαθμονόμηση (ακριβής αίσθηση βεβαιότητας) και ασφάλεια (συνέπειες λαθών).

Η έρευνα, που εξέτασε προηγμένα μοντέλα όπως τα GPT-5.2, Claude Opus 4.5 και Gemini 3 Pro, διαπίστωσε ότι ενώ η αξιοπιστία βελτιώνεται με κάθε νέα έκδοση, η πρόοδος είναι πολύ πιο αργή σε σύγκριση με την αύξηση της μέσης ακρίβειας. Συγκεκριμένα, η βελτίωση της αξιοπιστίας ήταν μισή από αυτήν της ακρίβειας σε ένα γενικό benchmark για agents και μόλις ένα έβδομο σε ένα benchmark για ερωτήματα υποστήριξης πελατών.

Συγκεκριμένα, τα μοντέλα Claude Opus 4.5 και Gemini 3 Pro πέτυχαν την υψηλότερη συνολική αξιοπιστία, στο 85%. Ωστόσο, η λεπτομερής ανάλυση ανέδειξε αδυναμίες. Το Gemini 3 Pro είχε χαμηλή απόδοση στην εκτίμηση της ακρίβειας των απαντήσεών του (52%) και ήταν εξαιρετικά προβληματικό στην αποφυγή καταστροφικών λαθών (25%). Το Claude Opus 4.5, αν και το πιο συνεπές, είχε ποσοστό συνέπειας μόλις 73%.

Οι ερευνητές τονίζουν ότι η αξιοπιστία δεν είναι μονοδιάστατη. Σε περιπτώσεις που η AI λειτουργεί συμπληρωματικά προς τον άνθρωπο, μια χαμηλότερη συνέπεια και ανθεκτικότητα μπορεί να είναι αποδεκτή, καθώς ο άνθρωπος λειτουργεί ως δίχτυ ασφαλείας. Ωστόσο, για πλήρως αυτοματοποιημένες εργασίες, η αξιοπιστία αποτελεί απαραίτητη προϋπόθεση. Ένας agent που πετυχαίνει στο 90% των εργασιών αλλά αποτυγχάνει απρόβλεπτα στο υπόλοιπο 10% μπορεί να είναι χρήσιμος βοηθός, αλλά μη αποδεκτό αυτόνομο σύστημα.

Η ανάγκη για αξιολόγηση της αξιοπιστίας, πέραν της απλής ακρίβειας, είναι επιτακτική. Μια άλλη πρόσφατη μελέτη, που εξέτασε τη συνδυαστική λειτουργία τριών ιατρικών εργαλείων AI, έδειξε ότι παρόλο που κάθε εργαλείο είχε υψηλή ακρίβεια (90%, 85% και 97% αντίστοιχα), η συνολική αξιοπιστία του συστήματος έφτασε μόλις το 74%, αφήνοντας περιθώριο για πιθανή λανθασμένη διάγνωση στο ένα τέταρτο των ασθενών. Η αταραξία μπορεί να είναι χόμπι μικρών μυαλών, αλλά η χάος που προκαλούν οι σημερινοί agents είναι πιο ανησυχητικό.

Ενώ οι τεχνητές νοημοσύνες γίνονται πιο ικανές, η αξιοπιστία τους υστερεί, δημιουργώντας ανησυχίες για τις πραγματικές εφαρμογές.

> Latest Stories

Το Glasgow κερδίζει το συνέδριο μαθηματικών του 2030 και προκαλεί αντιδράσεις στην Ασία

Η Ιταλία προτείνει οικονομικές εξαιρέσεις για να πείσει τον Pep Guardiola να αναλάβει την εθνική ομάδα

Συνάντηση Wang Yi και Maria Theresa Lazaro στη Μανίλα για την αποκλιμάκωση στη Θάλασσα της Νότιας Κίνας

Σημαντική για τον πολυπολικό κόσμο η εξομάλυνση των σχέσεων Ινδίας και Κίνας

Η διεθνής κοινότητα οφείλει να στηρίξει την οικονομική ανάκαμψη της Συρίας

Οι κορυφαίες στιγμές της τηλεόρασης: Τα 12 πιο συγκινητικά και αξέχαστα φινάλε σειρών

Ο Andy Biggs κέρδισε το χρίσμα των Ρεπουμπλικάνων για την περιφέρεια της Arizona

Γιατί το διάβασμα βιβλίων έγινε η νέα τάση της μόδας και του lifestyle

> demo

Οι διεθνείς αγορές σε τροχιά ρεκόρ εν μέσω διπλωματικών αναταράξεων στα Στενά του Ορμούζ

Ενώ η προοπτική για ειρήνη στη Μέση Ανατολή δίνει ώθηση στα χρηματιστήρια, η κρίση στο πετρέλαιο και οι γεωπολιτικές προκλήσεις παραμένουν στο επίκεντρο.

Οι κορυφαίες εταιρείες κρυπτονομισμάτων βλέπουν τα κεφάλαιά τους να συρρικνώνονται

Ο Demis Hassabis και το όραμα για την τεχνητή νοημοσύνη πέρα από τον εμπορικό ανταγωνισμό

Η ανάγκη για διαφάνεια στην επιλογή χειρουργού

Οι αγροτικοί συνεταιρισμοί ως ασπίδα απέναντι στην παγκόσμια επισιτιστική κρίση