Μια νέα, ανησυχητική μελέτη από το τμήμα επιστήμης υπολογιστών του Πανεπιστημίου Stanford, που δημοσιεύτηκε στο έγκριτο περιοδικό Science, αποκαλύπτει ότι τα μοντέλα Τεχνητής Νοημοσύνης (AI) επιβεβαιώνουν τους χρήστες 49% περισσότερο από έναν άνθρωπο κατά μέσο όρο, σε θέματα κοινωνικής φύσης. Αυτή η τάση είναι ιδιαίτερα προβληματική, καθώς όλο και περισσότεροι άνθρωποι στρέφονται στην AI για προσωπικές συμβουλές, ακόμη και για θεραπεία.
Από τους 2.400 συμμετέχοντες στη μελέτη, η πλειονότητα προτίμησε να δέχεται κολακείες. Το ποσοστό των υποθεμάτων που δήλωσαν ότι θα χρησιμοποιούσαν ξανά ένα “κολακευτικό” AI chatbot ήταν 13% υψηλότερο σε σύγκριση με εκείνους που ανέφεραν ότι θα επέστρεφαν σε ένα μη-κολακευτικό chatbot. Αυτό υποδηλώνει, σύμφωνα με τη μελέτη, ότι οι προγραμματιστές AI μπορεί να έχουν ελάχιστο κίνητρο να αλλάξουν αυτή την πρακτική.
Ενώ έχει αποδειχθεί στο παρελθόν ότι τα κολακευτικά chatbots μπορούν να συμβάλουν σε αρνητικά αποτελέσματα, όπως αυτοτραυματισμός ή βία σε ευάλωτους πληθυσμούς, η μελέτη του Stanford δείχνει ότι οι επιπτώσεις αυτές μπορεί να επεκτείνονται σε όλους. Η έκθεση, έστω και σε μία μόνο επιβεβαιωτική απάντηση στην κακή συμπεριφορά, καθιστά τους συμμετέχοντες λιγότερο πρόθυμους να αναλάβουν ευθύνη για τις πράξεις τους, να επιλύσουν διαπροσωπικές συγκρούσεις και τους κάνει πιο πιθανό να πιστεύουν ότι έχουν δίκιο.
Για να καταλήξουν σε αυτά τα αποτελέσματα, οι ερευνητές διεξήγαγαν μια μελέτη τριών μερών, μετρώντας την κολακεία της AI με βάση ένα σύνολο δεδομένων σχεδόν 12.000 κοινωνικών ερωτημάτων, τα οποία πέρασαν από 11 κορυφαία μοντέλα AI, συμπεριλαμβανομένων των Claude της Anthropic, Gemini της Google και ChatGPT της OpenAI. Ακόμη και όταν οι ερευνητές ζήτησαν από τα μοντέλα AI να κρίνουν αναρτήσεις από το subreddit “AITA” (Am I The Asshole), όπου οι χρήστες του Reddit είχαν κρίνει τον αναρτητή ως λάθος, τα μεγάλα γλωσσικά μοντέλα εξακολουθούσαν να κρίνουν τον αναρτητή ως σωστό στο 51% των περιπτώσεων.
Η επικεφαλής συγγραφέας της μελέτης και υποψήφια διδάκτορας Επιστήμης Υπολογιστών στο Stanford, Myra Cheng, δήλωσε ότι τα αποτελέσματα είναι ανησυχητικά, ιδιαίτερα για τους νέους ανθρώπους που, όπως είπε, στρέφονται στην AI για να επιλύσουν τα προβλήματα των σχέσεών τους. “Ανησυχώ ότι οι άνθρωποι θα χάσουν τις δεξιότητες να αντιμετωπίζουν δύσκολες κοινωνικές καταστάσεις”, δήλωσε η Cheng στο Stanford Report.
Η μελέτη της AI έρχεται σε μια εποχή που οι κυβερνητικοί αξιωματούχοι αποφασίζουν πόσο εμπλεκόμενοι θα πρέπει να είναι οι ρυθμιστές στην επίβλεψη της AI. Αρκετές πολιτείες, όπως το Τενεσί και το Όρεγκον, έχουν θεσπίσει τους δικούς τους νόμους για την AI ελλείψει ομοσπονδιακών κανονισμών. Ωστόσο, ο Λευκός Οίκος παρουσίασε την περασμένη εβδομάδα ένα πλαίσιο που, εάν υιοθετηθεί από το Κογκρέσο, θα δημιουργήσει μια εθνική πολιτική για την AI και θα αντικαταστήσει την “μωσαϊκή” ρύθμιση των πολιτειών.
Για να δοκιμάσουν τις ανθρώπινες αντιδράσεις στην κολακευτική AI, οι ερευνητές μελέτησαν τις αντιδράσεις λίγο πάνω από 2.400 ανθρώπινων συμμετεχόντων που αλληλεπίδρασαν με την AI. Αρχικά, 1.605 συμμετέχοντες κλήθηκαν να φανταστούν ότι ήταν οι συντάκτες μιας ανάρτησης βασισμένης στο subreddit AITA, η οποία είχε κριθεί ως λανθασμένη από άλλους χρήστες στο subreddit, αλλά ως σωστή από την AI. Στη συνέχεια, οι συμμετέχοντες είτε διάβασαν την κολακευτική απάντηση της AI είτε μια μη-κολακευτική απάντηση που βασίστηκε στα ανθρώπινα σχόλια. Άλλοι 800 συμμετέχοντες συνομίλησαν είτε με ένα κολακευτικό είτε με ένα μη-κολακευτικό μοντέλο AI για μια πραγματική σύγκρουση στη ζωή τους, πριν τους ζητηθεί να γράψουν ένα γράμμα στο άλλο πρόσωπο που εμπλεκόταν στη σύγκρουσή τους.
Οι συμμετέχοντες που έλαβαν επιβεβαιωτικές απαντήσεις από την AI ήταν μετρήσιμα λιγότερο πιθανό να ζητήσουν συγγνώμη, να παραδεχτούν λάθος ή να επιδιώξουν την αποκατάσταση των σχέσεών τους. Ακόμη και όταν οι χρήστες αναγνωρίζουν τα μοντέλα ως κολακευτικά, οι απαντήσεις της AI εξακολουθούν να τους επηρεάζουν, δήλωσε ο συν-επικεφαλής συγγραφέας της μελέτης, καθηγητής επιστήμης υπολογιστών και γλωσσολογίας του Stanford, Dan Jurafsky. “Αυτό που δεν γνωρίζουν, και μας εξέπληξε, είναι ότι η κολακεία τους κάνει πιο εγωκεντρικούς, πιο ηθικά δογματικούς”, δήλωσε ο Jurafsky στο Stanford Report.
Παραδόξως, στη μελέτη του Stanford, όταν οι ερευνητές ζήτησαν από τους ανθρώπινους συμμετέχοντες να αξιολογήσουν την αντικειμενικότητα τόσο των κολακευτικών όσο και των μη-κολακευτικών απαντήσεων της AI, τις αξιολόγησαν περίπου το ίδιο, πράγμα που σημαίνει ότι είναι πιθανό οι χρήστες να μην μπορούσαν να καταλάβουν ότι το κολακευτικό μοντέλο ήταν υπερβολικά συμφωνητικό. “Νομίζω ότι δεν πρέπει να χρησιμοποιείτε την AI ως υποκατάστατο ανθρώπων για αυτού του είδους τα θέματα. Αυτό είναι το καλύτερο που μπορείτε να κάνετε προς το παρόν”, δήλωσε η Cheng.