Η επόμενη μεγάλη κατάκτηση της τεχνητής νοημοσύνης δεν θα προέλθει από βελτιωμένα γλωσσικά μοντέλα. Αντιθέτως, θα προκύψει από μηχανές που κατανοούν πώς λειτουργεί ο φυσικός κόσμος και πώς να τον ελέγχουν. Αυτή την πρόοδο, που αναμένεται να φέρει επανάσταση σε πολλούς τομείς, εξετάζει η Nicole Fraenkel, Partner στην Khosla Ventures.
Η Nicole Fraenkel, με σπουδές νευροεπιστήμης στο Johns Hopkins και διδακτορικό στο Oxford ως Rhodes Scholar, έχει αφιερώσει χρόνια στη μελέτη αυτού του ζητήματος, αρχικά ως ανοσολόγος και στη συνέχεια ως επενδυτής. Στην Khosla Ventures, έχει ηγηθεί μεγάλων επενδύσεων σε εταιρείες τεχνητής νοημοσύνης, με ιδιαίτερη έμφαση σε εργαστήρια μοντελοποίησης του κόσμου, όπως η General Intuition.
Το κύριο εμπόδιο στην ανάπτυξη της “ενσωματωμένης” τεχνητής νοημοσύνης (embodied AI) δεν είναι η υπολογιστική ισχύς ή η αρχιτεκτονική, αλλά η έλλειψη ενός συγκεκριμένου είδους δεδομένων.
Η Google, με το Project Genie, έχει ήδη δώσει ένα δείγμα των δυνατοτήτων της, προκαλώντας αναταραχή στην αγορά των video games. Ωστόσο, η σημασία του Project Genie υπερβαίνει την απλή αναστάτωση της βιομηχανίας του gaming. Η πραγματική αξία έγκειται στην ικανότητά του να διαχειρίζεται κάθε χωρική εργασία (spatial workload) στον πλανήτη. Παρόλο που το Project Genie παρουσιάζει περιορισμούς όπως σύντομη διάρκεια περιβαλλόντων, αισθητή καθυστέρηση και περίεργη συμπεριφορά της φυσικής, αυτά τα μειονεκτήματα είναι αποδεκτά, καθώς ο πρωταρχικός σκοπός του δεν είναι η ψυχαγωγία. Όπως δήλωσε η Google, το Genie 3 αποτελεί “ένα βασικό σκαλοπάτι προς την AGI” (Artificial General Intelligence), υποδομή για την εκπαίδευση του SIMA, ενός γενικευμένου πράκτορα που απαιτεί ατελείωτα και ποικίλα περιβάλλοντα για να μάθει πλοήγηση, χειρισμό αντικειμένων και κατανόηση της φυσικής του πραγματικού κόσμου. Η δημιουργία αντικειμένων κατά τη διάρκεια μιας συνεδρίας και η δυναμική αλλαγή των περιβαλλοντικών συνθηκών δεν αποτελούν απλώς χαρακτηριστικά για gaming, αλλά εκπαιδευτικά εργαλεία για την ενισχυτική μάθηση (reinforcement learning).
Αυτό που έχει κατασκευάσει η Google είναι ουσιαστικά ένα “εργοστάσιο περιβαλλόντων”, ένα σύστημα που μειώνει τους μήνες χειροκίνητου προγραμματισμού, που παραδοσιακά απαιτούνταν για τη δημιουργία προσομοιώσεων εκπαίδευσης, σε δευτερόλεπτα μέσω απλής καθοδήγησης κειμένου.
Για να κατανοήσουμε γιατί αυτή η διάκριση είναι τόσο σημαντική, ας διευρύνουμε την οπτική μας. Παρά τη ριζική ανατροπή που επέφερε η ψηφιακή επανάσταση, ο τρόπος με τον οποίο αλληλεπιδρούμε φυσικά με την πραγματικότητα έχει αλλάξει ελάχιστα. Η μετάβαση από τους πρώτους επιτραπέζιους υπολογιστές στα smartphones και στην αρχιτεκτονική Transformer αποτέλεσε ένα κολοσσιαίο άλμα όσον αφορά τη ροή πληροφοριών. Ωστόσο, στην καθημερινότητά μας, εξακολουθούμε κυρίως να αλληλεπιδρούμε με γυάλινες οθόνες.
Σκεφτείτε το σκίουρο έξω από το παράθυρό σας. Αυτό το πλάσμα, πηδώντας από κλαδί σε κλαδί, προσαρμόζοντας την πορεία του εν πτήσει για να αντιμετωπίσει τον αέρα και την ελαστικότητα των κλαδιών, διαθέτει ένα εκπληκτικά εξελιγμένο εσωτερικό μοντέλο φυσικής: βαρύτητα, ορμή, τριβή. Είναι ικανό να σχεδιάζει σύνθετες ακολουθίες ενεργειών, χωρίς να διαθέτει γλώσσα. Απλά “ξέρει”, με έναν τρόπο που η γνώση προϋπήρχε πολύ πριν την περιγραφή.
Η τεχνητή νοημοσύνη έχει παραβλέψει σε μεγάλο βαθμό αυτό το είδος γνώσης. Τα σημερινά μεγάλα γλωσσικά μοντέλα μπορούν να γράψουν ποιήματα και να διορθώσουν κώδικα. Όταν όμως τους ζητήσουμε να διπλώσουν μια πετσέτα, αποκαλύπτεται το χάσμα μεταξύ της γνώσης για τον κόσμο και της γνώσης του πώς να δράσουμε εντός αυτού. Η γλώσσα αποτελεί απλώς μια συμπίεση της ανθρώπινης εμπειρίας, καταγράφοντας μόνο ένα μικρό μέρος από όσα γνωρίζουμε.
Τα “μοντέλα κόσμου” (world models), νευρωνικά δίκτυα εκπαιδευμένα να κατανοούν και να προβλέπουν τη φυσική πραγματικότητα, υπόσχονται να αλλάξουν αυτή την εξίσωση. Ο Yann LeCun έχει αναγνωρίσει αυτή την ανάγκη, δηλώνοντας ότι τα “LLMs είναι ουσιαστικά ένα αδιέξοδο όσον αφορά την υπερ-ευφυΐα”, πριν εγκαταλείψει τη Meta για να ξεκινήσει τη δική του startup μοντέλων κόσμου. Το World Labs της Fei-Fei Li μόλις κυκλοφόρησε το Marble, ένα σύστημα παραγωγής τρισδιάστατων περιβαλλόντων. Και οι δύο κατανοούν ότι η χωρική νοημοσύνη είναι η επόμενη επέκταση της AI.
Ωστόσο, κανείς δεν έχει επιλύσει το κύριο πρόβλημα: την έλλειψη δεδομένων για την κατασκευή πρακτόρων (agents). Η εκπαίδευση ενός πράκτορα απαιτεί δεδομένα υπό συνθήκες δράσης (action-conditioned data). Όχι μόνο πώς φαινόταν ο κόσμος, αλλά και τι έκανε κάποιος και τι συνέβη στη συνέχεια: παρατήρηση, απόφαση, δράση, συνέπεια. Ο πλήρης κύκλος. Η μετάβαση στους πράκτορες απαιτεί εκατομμύρια ώρες ανθρώπινης λήψης αποφάσεων, καταγεγραμμένες από την πηγή, συγχρονισμένες με τις αλλαγές κατάστασης που προκύπτουν, και επιλεγμένες για ακραίες περιπτώσεις.
Τα βιντεοπαιχνίδια μπορεί να αποδειχθούν η απροσδόκητη λύση. Παρέχουν πλήρη αρχεία ανθρώπινης δράσης, με κάθε εισαγωγή καταγεγραμμένη και επισημασμένη, σε περιβάλλοντα που αποτυπώνουν τη φυσική και τη λήψη αποφάσεων υπό αβεβαιότητα. Αυτό σημαίνει εκατομμύρια ώρες ανθρώπινης κρίσης, ήδη ψηφιοποιημένες.
Η βαθύτερη αξία δεν έγκειται στη φυσική, αλλά στην ανθρώπινη διαίσθηση. Μια μηχανή φυσικής προσομοιώνει πώς κινείται ένα drone, αλλά δεν μπορεί να προσομοιώσει πώς αντιδρά ένας εξειδικευμένος χειριστής όταν εκπλήσσεται. Στη χειρουργική, είναι η αίσθηση του πώς αντιδρά ο ιστός στο νυστέρι. Εκπαιδεύοντας την τεχνητή νοημοσύνη σε ανθρώπινες αποφάσεις, μπορούμε να αποτυπώσουμε την εξειδίκευση που δεν μπορεί να περιγραφεί με λόγια, μόνο να φανεί, να νιώσει.
Εάν αυτό επιτευχθεί σωστά, οι συνέπειες θα αντηχήσουν την επίδραση που είχε το λογισμικό στην πληροφορική. Όταν μια μηχανή μπορεί να μάθει μια εργασία χειρισμού από ώρες επίδειξης αντί για μήνες προγραμματισμού, η οικονομία της παραγωγής ανατρέπεται. Η παραγωγή μικρών παρτίδων γίνεται βιώσιμη. Τα προσαρμοσμένα προϊόντα θα κοστίζουν όσο τα μαζικής παραγωγής σήμερα. Η δεκαετής γνώση ενός μάστορα ηλεκτρολόγου θα μπορεί να αξιοποιηθεί σε χιλιάδες πόλεις ταυτόχρονα. Ο καλύτερος χειρουργός θα μπορεί να προσφέρει τις γνώσεις του σε νοσοκομεία σε απομακρυσμένες περιοχές που σήμερα δεν έχουν πρόσβαση. Το εμπόδιο ποτέ δεν ήταν τα χειρουργικά εργαλεία. Ήταν τα χέρια.
Γεωργία, εφοδιαστική αλυσίδα, φροντίδα ηλικιωμένων. Κάθε τομέας όπου η φυσική δεξιότητα είναι σπάνια, γίνεται υποψήφιος για μετασχηματισμό. Το κοινό νήμα: η εξειδίκευση που είναι κλειδωμένη σε μεμονωμένα σώματα γίνεται μεταβιβάσιμη.
Η ψηφιακή επανάσταση έκανε την πληροφορία δωρεάν. Η επανάσταση των μοντέλων κόσμου θα κάνει την ικανότητα δωρεάν. Δεν υπάρχει πιο σημαντικό στοίχημα από αυτό.