Η Ant Group, ο κινεζικός κολοσσός της fintech, έκανε ανοιχτό κώδικα τα πρώτα της μοντέλα τεχνητής νοημοσύνης για τη ρομποτική, ως μέρος μιας ευρύτερης προσπάθειας για την ανάπτυξη μηχανικής νοημοσύνης ικανής να διαχειρίζεται σύνθετες εργασίες στον πραγματικό κόσμο. Αυτή η κίνηση σηματοδοτεί μια πιο έντονη εστίαση από την Ant Group, με έδρα το Hangzhou, στην ενσωματωμένη νοημοσύνη – δηλαδή, συστήματα AI που έχουν σχεδιαστεί για να αντιλαμβάνονται, να συλλογίζονται και να δρουν σε φυσικά περιβάλλοντα, αντί μόνο σε ψηφιακά. Η εταιρεία αποτελεί τη fintech θυγατρική της Alibaba Group Holding, η οποία κατέχει τη South China Morning Post.
Το τμήμα ρομποτικής της Ant, γνωστό ως Ant Lingbo Technology ή Robbyant, ανακοίνωσε ότι οι τελευταίες του κυκλοφορίες περιλαμβάνουν το LingBot-VLA, ένα μοντέλο όρασης-γλώσσας-δράσης (VLA). Στόχος του είναι να υποστηρίξει αυτό που χαρακτήρισαν ως «καθολικό εγκέφαλο» για τα ρομπότ, επιτρέποντας πιο επεκτάσιμη και πρακτική εφαρμογή σε διάφορους κλάδους. Ο διευθύνων σύμβουλος της Robbyant, Zhu Xing, δήλωσε: «Για να επιτύχει η ενσωματωμένη νοημοσύνη μαζική υιοθέτηση, χρειαζόμαστε εξαιρετικά ικανά και οικονομικά αποδοτικά θεμελιώδη μοντέλα που λειτουργούν αξιόπιστα σε πραγματικό υλικό. Στόχος μας είναι να επιταχύνουμε την ενσωμάτωση της AI στον φυσικό κόσμο, ώστε να προσφέρει πρακτική αξία νωρίτερα».
Η Κίνα ήδη πρωτοπορεί στην παγκόσμια διάθεση βιομηχανικών και ανθρωπόμορφων ρομπότ. Ωστόσο, πολλά εντυπωσιακά ανθρωπόμορφα ρομπότ, όπως αυτά που αναπτύχθηκαν από την Unitree Robotics, τα οποία μπορούν να χορεύουν και να κάνουν τούμπες, εξακολουθούν να βασίζονται σε προκαθορισμένες ρουτίνες. Αυτό περιορίζει την αυτονομία τους και την ικανότητά τους να γενικεύουν σε διαφορετικές εργασίες. Κινέζοι ειδικοί και επενδυτές στην AI έχουν επισημάνει αυτούς τους περιορισμούς ως ένα κρίσιμο εμπόδιο για τη μετατροπή της νέας γενιάς ρομπότ σε οικονομικά παραγωγικά μηχανήματα, καθιστώντας την ανάπτυξη ενός ισχυρότερου ρομποτικού «εγκεφάλου» μια επείγουσα προτεραιότητα για τη συνολική βιομηχανία ρομποτικής.
Εκτός από την Ant, και άλλοι Κινέζοι προγραμματιστές εργάζονται σε συστήματα ενσωματωμένης AI, όπως η Spirit AI και η X Square Robot, η τελευταία με υποστήριξη από την Alibaba. Τα μοντέλα VLA βρίσκονται στο επίκεντρο αυτών των προσπαθειών. Μερικές φορές περιγράφονται ως μεγάλα γλωσσικά μοντέλα προσαρμοσμένα για τη ρομποτική, συνδυάζουν οπτική αντίληψη, κατανόηση γλώσσας και κινητικό έλεγχο για να βοηθήσουν τα μηχανήματα να εκτελούν ένα ευρύ φάσμα εργασιών στον πραγματικό κόσμο. Σε μια τεχνική εργασία, η Ant ανέφερε ότι το μοντέλο VLA της δοκιμάστηκε χρησιμοποιώντας ρομπότ διπλού βραχίονα από την AgiBot και άλλες μικρότερες εγχώριες νεοσύστατες εταιρείες – Galaxea Dynamics και AgileX Robotics – και έδειξε ισχυρότερη γενικευσιμότητα και αποτελεσματικότητα στην εκπαίδευση σε σύγκριση με άλλα κορυφαία μοντέλα VLA.
Τα ρομπότ που χρησιμοποιούσαν το μοντέλο δοκιμάστηκαν σε 100 εργασίες, όπως ξεβίδωμα καπακιού μπουκαλιού, τοποθέτηση βαρών σε αλτήρα και καθάρισμα ενός λεμονιού. Τα δεδομένα παραμένουν ένα βασικό σημείο συμφόρησης. Η Ant ανέφερε ότι εκπαίδευσε το μοντέλο σε περίπου 20.000 ώρες δεδομένων από ρομποτική στον πραγματικό κόσμο – περίπου σύμφωνα με το σύνολο δεδομένων που χρησιμοποιήθηκε για το PI\*0.6, ένα μοντέλο VLA από την αμερικανική start-up Physical Intelligence. Ωστόσο, σημείωσε ότι ένας «καθολικός εγκέφαλος» που θα καλύπτει πολλαπλές πλατφόρμες και διαφορετικούς τύπους ρομπότ, από συστήματα ενός ή δύο βραχιόνων έως ανθρωπόμορφα, θα απαιτούσε πολύ περισσότερα δεδομένα.
Μια προσέγγιση για την άρση αυτού του εμποδίου είναι η χρήση των λεγόμενων μοντέλων κόσμου (world models) – πλαισίων προσομοίωσης που επιτρέπουν στα ρομπότ να μαθαίνουν και να εξασκούνται σε εικονικά περιβάλλοντα. Αυτή η κατεύθυνση έχει τονιστεί από πρωτοπόρους της AI, όπως η Li Fei-Fei και ο Yann LeCun, ως μια βασική επόμενη πρόκληση για τον τομέα. Την Πέμπτη, η Ant Group κυκλοφόρησε επίσης το πρώτο της μοντέλο κόσμου, το LingBot-World, το οποίο, όπως δήλωσε, προσφέρει δυνατότητες συγκρίσιμες με το κορυφαίο σύστημα Genie 3 της Google DeepMind. Με αυτήν την κίνηση, η Ant γίνεται ένας από τους τελευταίους Κινέζους τεχνολογικούς γίγαντες που εξερευνούν προσεγγίσεις μοντέλων κόσμου, μαζί με τις Tencent Holdings και SenseTime.