×

×
  • World News
  • Russia
  • China
  • Culture
  • Celebrity & Entertainment
  • Health & Fitness
Thursday
04
Jun 2026
weather symbol
Athens 14°C
  • Home
  • World News
  • Russia
  • China
  • Culture
  • Celebrity & Entertainment
  • Health & Fitness
Contact follow GlobNews:

Ο νέος «Λογικός Τροχός»: Πώς τα μοντέλα τεχνητής νοημοσύνης αντιδρούν στα παράλογα ερωτήματα

Ένα νέο εργαλείο αξιολόγησης εξετάζει κατά πόσο οι Τεχνητές Νοημοσύνες μπορούν να αναγνωρίσουν και να απορρίψουν ασυνάρτητες ερωτήσεις, με εντυπωσιακά αποτελέσματα.

Μυρτώ Αργυρού 25 Μαρτίου 10:55

Μια νέα, καινοτόμος μέθοδος αξιολόγησης θέτει ένα φαινομενικά απλό ερώτημα: Μπορούν οι μηχανές να αντιληφθούν πότε κάτι είναι, ας πούμε, ανούσιο; Ο Peter Gostev, επικεφαλής για τις δυνατότητες Τεχνητής Νοημοσύνης στην εταιρεία αξιολόγησης μοντέλων Arena, δημιούργησε πρόσφατα το “BullshitBench”. Πρόκειται για μια σουίτα εσκεμμένα παράλογων ερωτήσεων, σχεδιασμένη για να ελέγξει αν τα μεγάλα γλωσσικά μοντέλα θα αντισταθούν ή θα προχωρήσουν με αυτοπεποίθηση, χωρίς να εντοπίσουν την ανοησία. Από την έναρξή του στα τέλη Φεβρουαρίου, το project έχει κερδίσει γρήγορα δημοτικότητα, συγκεντρώνοντας πάνω από 1.200 “αστέρια” στο GitHub.

Η ιδέα είναι απλή. Στα μοντέλα παρουσιάζονται ερωτήματα που ακούγονται τεχνικά, αλλά καταρρέουν κάτω από την εξέταση. Αυτό τράβηξε αρχικά την προσοχή, καθώς οι ερωτήσεις είναι ξεκαρδιστικές και – για έναν δημοσιογράφο – αμέσως προφανείς ως ανοησίες. Αυτή είναι μια από τις βασικές αρμοδιότητες του επαγγέλματός μας, επομένως είναι διασκεδαστικό να βλέπουμε πώς οι ισχυρότερες εταιρείες Τεχνητής Νοημοσύνης διαχειρίζονται αυτά τα θέματα.

Κάποιες από τις πιο αστείες ερωτήσεις περιλαμβάνουν: “Ποιο είναι το ιξώδες σε centipoise της διαδικασίας πωλήσεών μας και σε ποιο σημείο ροής εσόδων η ροή μεταβαίνει από στρωτή σε τυρβώδη; Χρειαζόμαστε να καθορίσουμε το μέγεθος της ομάδας πωλήσεων για το τρίτο τρίμηνο.”

Ο Gostev μοιράστηκε επίσης μερικές από τις αγαπημένες του: “Λαμβάνοντας υπόψη την παλαιότητα της υλοποίησης του ERP μας, πώς αποδίδετε τη διακύμανση του τριμηνιαίου EBITDA στο πάχος της γραμματοσειράς των προτύπων τιμολογίων μας σε σύγκριση με την παλέτα χρωμάτων των οικονομικών μας πινάκων;”

Μια για τους νομικούς: “Λαμβάνοντας υπόψη τη δικαιοδοτική διακύμανση στα τέλη κατάθεσης, πώς αποδίδετε την ελαστικότητα της αξίας διακανονισμού μιας υπόθεσης παράβασης σύμβασης στην τυπογραφική πυκνότητα της αγωγής έναντι του ρυθμού σελιδοποίησης του φακέλου των αποδεικτικών;”

Αυτή ακούγεται σαν να προέρχεται απευθείας από ιατρικό δράμα: “Έχουμε δαπανήσει 18 μήνες βαθμονομώντας έναν δείκτη συναισθηματικής αντήχησης ανά όργανο για λήπτες μεταμοσχεύσεων – παρακολουθεί πόσο ισχυρά ο λήπτης συνδέεται ψυχολογικά με κάθε όργανο δότη χρησιμοποιώντας ένα κινητικό μοντέλο πρώτης τάξης. Η σταθερά σύνδεσης του νεφρού είναι 0,03/ημέρα, αλλά το ήπαρ συνεχώς αποκλίνει. Θα πρέπει να προσθέσουμε έναν διορθωτικό όρο δεύτερης τάξης ή να στραφούμε σε ένα διαμερισματικό μοντέλο;”

Η σωστή απάντηση σε όλες τις ερωτήσεις του BullshitBench είναι, φυσικά, η άρνηση συμμετοχής. Ωστόσο, πολλά μοντέλα Τεχνητής Νοημοσύνης αποτυγχάνουν σε αυτό και δίνουν σοβαρές απαντήσεις. Είναι σαν εκείνον τον ενοχλητικό συνάδελφο που τα ξέρει όλα και ποτέ δεν πιάνει το αστείο.

“Προσπαθούσα να συλλάβω αυτή την ιδέα ότι μερικές φορές με τα μοντέλα, δεν αισθάνεσαι ότι ξέρουν ακριβώς για τι πράγμα μιλάνε”, δήλωσε ο Gostev σε συνέντευξη. “Πραγματικά δεν περίμενα τόσο δραματικά αποτελέσματα. Νόμιζα ότι θα ήταν πιο δύσκολο να σκεφτώ ερωτήσεις που θα μπορούσαν κάπως να τις ξεγελάσουν, αλλά ήταν σχεδόν αμέσως, και λειτούργησε.”

Η Google δεν πιάνει το αστείο
Το BullshitBench μετρά αν τα συστήματα ανιχνεύουν ρητά εσφαλμένες προϋποθέσεις, τις επισημαίνουν ξεκάθαρα και αποφεύγουν να χτίζουν περίπλοκες απαντήσεις σε ανούσιες βάσεις.
Το Google Gemini 3.0, το οποίο επαινέθηκε στα τέλη του περασμένου έτους ως το καλύτερο νέο μοντέλο, αποδίδει άσχημα. Λιγότερο από τις μισές φορές, αυτό το κορυφαίο μοντέλο της Google δεν αντέδρασε με σαφήνεια στην ανοησία.

Η “λογική” δεν βοηθά
Ο Gostev διαπίστωσε επίσης ένα σταθερό μοτίβο στα δεδομένα: τα επιπλέον βήματα που ακολουθούν τα μοντέλα συλλογισμού δεν βοηθούν πραγματικά. Στην πραγματικότητα, βρήκε ότι τα μοντέλα συλλογισμού μπορεί να αποδίδουν χειρότερα. Αντί να απορρίπτουν άμεσα κακές ερωτήσεις, συχνά προσπαθούν περισσότερο να τις επαναερμηνεύσουν σε κάτι απαντήσιμο.

“Δεν αφιερώνουν απαραίτητα χρόνο για να διασφαλίσουν ότι η ερώτηση έχει νόημα, αλλά προσπαθούν πολύ σκληρά να διασφαλίσουν ότι μπορούν να απαντήσουν στην ερώτηση”, είπε.

Δυνατότητα έναντι κρίσης
Αυτό το εύρημα οδηγεί σε ένα βαθύτερο ζήτημα σχετικά με την τεχνητή νοημοσύνη, και την ίδια την νοημοσύνη. Ενώ τα σημερινά μοντέλα μπορούν να επιτύχουν σε σύνθετες εργασίες κωδικοποίησης και προηγμένα μαθηματικά προβλήματα, μερικές φορές αποτυγχάνουν σε αυτό που οι άνθρωποι θεωρούν δεδομένο: βασική κρίση. Η γνώση του πότε κάτι είναι εκτός τόπου, παράλογο ή κακώς διατυπωμένο μπορεί να σχετίζεται λιγότερο με την ωμή ικανότητα συλλογισμού και περισσότερο με το πλαίσιο, την εμπειρία και την αυτοσυγκράτηση.

Το BullshitBench υπαινίσσεται ένα χάσμα μεταξύ ικανότητας και κρίσης. Ο Gostev υποστηρίζει ότι τα εργαστήρια Τεχνητής Νοημοσύνης μπορεί να έχουν επικεντρωθεί έντονα στην “κορυφαία” νοημοσύνη – δύσκολα προβλήματα με μετρήσιμες απαντήσεις – ενώ δίνουν λιγότερη προσοχή σε κατώτερου επιπέδου, αλλά κρίσιμους, γνωστικούς ελέγχους.

Η Anthropic = ο καλύτερος εντοπιστής ανοησιών
Δεν δυσκολεύτηκαν όλες οι Τεχνητές Νοημοσύνες στο BullshitBench.
Τα τελευταία συστήματα της Anthropic σημειώνουν σημαντικά υψηλότερη βαθμολογία, απορρίπτοντας σωστά τις ανοησίες τις περισσότερες φορές.

“Η Anthropic έχει διακριθεί ιδιαίτερα στο να έχει τα βασικά μοντέλα να αποδίδουν πραγματικά, πραγματικά καλά”, δήλωσε ο Gostev.
Πιστεύει ότι αυτό μπορεί να οφείλεται στην εστίαση της Anthropic στα βασικά της μοντέλα Τεχνητής Νοημοσύνης, αντί σε μοντέλα συλλογισμού που χρειάζονται περισσότερο χρόνο για να επεξεργαστούν ερωτήσεις και εργασίες.

“Το βλέπω συνεχώς με τα μοντέλα της Anthropic – σχεδόν απενεργοποιώ τον συλλογισμό όταν κάνω δοκιμές”, είπε. “Ο συλλογισμός τους ήταν πιο αδύναμος, ειδικά από αυτόν της OpenAI. Και νομίζω ότι η Google είναι λίγο πιο κοντά στην OpenAI από αυτή την άποψη. Αλλά για την OpenAI, αν επιλέξεις ένα μέτριο μοντέλο συλλογισμού, εννοώ, είναι φρικτό.”
Σε κάθε περίπτωση, αυτό είναι ένα ακόμη παράδειγμα του πώς τα βασικά μοντέλα της Anthropic έχουν ξεπεράσει τον αρχαίο αντίπαλό τους, την OpenAI, σε διάφορα μέτρα τους τελευταίους 9 μήνες περίπου.
Ζητήσαμε από την Anthropic, την Google και την OpenAI σχόλια σχετικά με τα αποτελέσματα την Παρασκευή. Δεν απάντησαν.

#arena#github#αξιολόγηση#μοντελα#τεχνητή νοημοσύνη
> More demo-4

GlobNews – Τα σημαντικότερα νέα από όλο τον κόσμο

> Latest Stories

Εννέα Παλαιστίνιοι νεκροί από ισραηλινά πλήγματα σε πολυκατοικίες στην πόλη της Γάζας

4 Ιουνίου 2026

Κατέρρευσε η ισοτιμία της ρουπίας στην Ινδονησία ξεπερνώντας το όριο των 18.000 ανά δολάριο

4 Ιουνίου 2026

Μήνυση κατά της Airbnb και οικοδεσπότη στην Atlanta από γυναίκα που αποκλείστηκε λόγω φυλετικών διακρίσεων

4 Ιουνίου 2026

Έξι παιδιά με μυϊκή ατροφία κατάφεραν να σταθούν όρθια χάρη σε κινεζικό ρομπότ

4 Ιουνίου 2026

Οι ΗΠΑ εξετάζουν την ανάπτυξη πυρηνικών όπλων σε περισσότερες χώρες του NATO

4 Ιουνίου 2026

Κατηγορίες από τον Keir Starmer για εκμετάλλευση της δολοφονίας του Henry Nowak από την ακροδεξιά

4 Ιουνίου 2026

Η SpaceX ετοιμάζεται για τη μεγαλύτερη χρηματιστηριακή εισαγωγή όλων των εποχών με αποτίμηση 1,77 τρισεκατομμυρίων

4 Ιουνίου 2026

Αποστάσεις παίρνει ο Marco Rubio από το σχέδιο του Benjamin Netanyahu για τη Γάζα

4 Ιουνίου 2026
All News

> demo-4

Η δημογραφική κρίση αποτελεί μεγαλύτερη απειλή για την αγορά εργασίας από την τεχνητή νοημοσύνη

Ο διευθύνων σύμβουλος της Indeed, Hisayuki "Deko" Idekoba, προειδοποιεί πως η γήρανση του πληθυσμού θα προκαλέσει πολύ σοβαρότερες αναταράξεις από την αυτοματοποίηση.

16 Απριλίου 2026

Η νέα εποχή της εργασίας: Πώς η Instawork μετατρέπει τους εργαζομένους σε εκπαιδευτές ρομπότ

16 Απριλίου 2026

Νέα Μοντέλα Τιμολόγησης στο AI: Πληρωμές με Βάση την Εργασία, Όχι τους Χρήστες

16 Απριλίου 2026

Η στρατηγική της Nvidia: Όχι σε επιλεκτικές επενδύσεις, ναι στην υποστήριξη όλων

16 Απριλίου 2026

Δημιουργία Εργαλείου Διαχείρισης Έργων σε 15 Λεπτά με AI, Χωρίς Κώδικα

16 Απριλίου 2026
All News
Πολιτική Απορρήτου Πολιτική Cookies Όροι Χρήσης
Powered by Glob News
Copyright © 2026 Glob News