Ερευνητές της Tencent Holdings αναζητούν συνεργασίες με άλλους μεγάλους παρόχους τεχνητής νοημοσύνης (AI) με στόχο τη βελτίωση της αλληλεπίδρασης των υπηρεσιών παραγωγικής AI, όπως τα chatbots, με ηλικιωμένους, παιδιά που μένουν πίσω (left-behind children) και άλλες ευάλωτες κοινωνικές ομάδες.
Σύμφωνα με τη Lu Shiyu, ανώτερη ερευνήτρια στο Tencent Research Institute (TRI), εξειδικευμένα σύνολα δεδομένων μπορούν να καταστήσουν τις υπηρεσίες AI πιο χρήσιμες για ευάλωτους χρήστες, οι οποίοι βασίζονται ολοένα και περισσότερο σε αυτές για συναισθηματική υποστήριξη και βοήθεια σε θέματα υγείας.
Από το 2024, η ομάδα της Lu στο TRI, η μονάδα έρευνας δημόσιας στρατηγικής της Tencent που εδρεύει στη Shenzhen, αναπτύσσει εξειδικευμένα σύνολα δεδομένων λαμβάνοντας υπόψη τις ανάγκες των ευάλωτων χρηστών. Τα σύνολα δεδομένων, όπως ολόκληρο το διαδίκτυο, εξοπλίζουν τα μεγάλα γλωσσικά μοντέλα (LLMs) με γενικές γνώσεις κατά τη φάση προ-εκπαίδευσης, προτού προσαρμοστούν περαιτέρω στη φάση μετά την εκπαίδευση, λίγο πριν την ανάπτυξη των μοντέλων.
Πέρυσι, η ομάδα της Lu και ερευνητές από το Πανεπιστήμιο Επιστήμης και Τεχνολογίας του Πεκίνου δοκίμασαν κορυφαία LLMs που αναπτύχθηκαν στις ΗΠΑ και την Κίνα, συμπεριλαμβανομένου του μοντέλου Hunyuan της Tencent. Διαπίστωσαν ότι όλα τα μοντέλα χρειάζονταν βελτίωση στον τρόπο χειρισμού θεμάτων όπως η σεξουαλική διαπαιδαγώγηση και άλλα θέματα σχετικά με τα 69 εκατομμύρια παιδιά που μένουν πίσω στην Κίνα – παιδιά, συχνά σε αγροτικές περιοχές, των οποίων οι γονείς μεταναστεύουν στις πόλεις για εργασία.
Η ομάδα συνεργάστηκε επίσης με κινεζικούς μη κερδοσκοπικούς οργανισμούς που βοηθούν ευάλωτες ομάδες για την ανάπτυξη ενός «συνόλου δεδομένων για ηλικιωμένους», προερχόμενο από χιλιάδες παραδείγματα ερωτήσεων και απαντήσεων που συνέβαλαν ηλικιωμένοι απόκρισεις.
«Για να υπάρξει αντίκτυπος, το επόμενο βήμα είναι η συνεργασία με μεγάλους προγραμματιστές μοντέλων AI που έχουν πολλούς χρήστες», δήλωσε η Lu. «Ωστόσο, αυτό δεν είναι εύκολο. Η εκπαίδευση είναι δύσκολη, καθώς κάθε νέο κομμάτι δεδομένων που προσθέτετε πρέπει να κρίνεται προσεκτικά, καθώς θα επηρεάσει τη συνολική απόδοση ενός μοντέλου.»
Η ομάδα του TRI διερευνά τώρα την ανάπτυξη εξειδικευμένων συνόλων δεδομένων, που αποτελούνται από υψηλής ποιότητας παραδείγματα που συνεισφέρουν ειδικοί σε συγκεκριμένους τομείς, αντί για τελικούς χρήστες. Αυτό υπογραμμίζει τις προσπάθειες του TRI να δημιουργήσει εξειδικευμένα σύνολα δεδομένων για μοντέλα AI που θα μπορούσαν να ωφελήσουν ευρέως τη δεύτερη πιο πολυπληθή χώρα του κόσμου.
Σύμφωνα με τη Lu, τα εξειδικευμένα σύνολα δεδομένων μπορούν να χρησιμοποιηθούν κατά την ανάπτυξη για περαιτέρω προσαρμογή των AI chatbots σε συγκεκριμένες περιπτώσεις χρήσης, δίνοντας οδηγίες στο LLM πίσω από την εφαρμογή να ανακτήσει και να ενσωματώσει εξωτερικές πληροφορίες, μια τεχνική γνωστή ως retrieval-augmented generation.
Δεδομένου ότι οι μεγαλύτερες τεχνολογικές εταιρείες της Κίνας έχουν ήδη εύκολη πρόσβαση στα δικά τους ιδιόκτητα σύνολα δεδομένων, που αντλούνται από τα δικά τους τεράστια οικοσυστήματα προϊόντων και υπηρεσιών, αυτή η στροφή προς ακόμη πιο εξειδικευμένα σύνολα δεδομένων θα μπορούσε να καλύψει μια εξειδικευμένη ζήτηση στον κλάδο.
«Οι εταιρείες χρειάζονται εξαιρετικά συγκεκριμένα και στενά εξειδικευμένα σύνολα δεδομένων, επειδή θέλουν να συνεχίσουν να βελτιώνουν τα μοντέλα τους», δήλωσε η Lu. «Αν μπορέσουμε να αναπτύξουμε ένα εξαιρετικά έγκυρο εξειδικευμένο σύνολο δεδομένων, για θέματα ηλικιωμένων για παράδειγμα, μπορεί να ενδιαφέρονται να το χρησιμοποιήσουν.»
Σύμφωνα με μια έκθεση που δημοσιεύθηκε τον Οκτώβριο από την AliResearch, ένα ινστιτούτο υπό την Alibaba Group Holding, πάνω από το ήμισυ των Κινέζων άνω των 50 ετών ήταν ενεργοί χρήστες υπηρεσιών AI. Αυτή η έρευνα βρήκε ότι το 45% των ερωτηθέντων ηλικίας 76 ετών και άνω «χρησιμοποιούσαν AI συχνά καθημερινά και δεν μπορούσαν να ζήσουν χωρίς αυτό».
Αυτό θα καθιστούσε τη βελτίωση των αποτελεσμάτων της AI σχετικά με τις προεξάρχουσες ανησυχίες των ηλικιωμένων, όπως η αντιμετώπιση της μοναξιάς και των προβλημάτων υγείας, μια φυσική προτεραιότητα στην Κίνα, δήλωσε η Lu.
Προς το παρόν, ωστόσο, η υιοθέτηση του συνόλου δεδομένων για ηλικιωμένους του TRI είναι χαμηλή, καθώς οι εγχώριοι μη κερδοσκοπικοί οργανισμοί στερούνται την τεχνική γνώση και τους πόρους για να χρησιμοποιήσουν οι ίδιοι τα σύνολα δεδομένων στις υπηρεσίες AI τους.
Μια επιπλέον πρόκληση ήταν η απόδειξη της εμπορικής αξίας αυτών των εξειδικευμένων συνόλων δεδομένων, σύμφωνα με τον He Jingwen, βοηθό ερευνητή στο TRI.
Ορισμένα μοντέλα AI στην Κίνα έχουν ήδη διαπιστωθεί ότι είναι υπερβολικά κολακευτικά προς τους χρήστες, σύμφωνα με μελέτη ερευνητών από το Πανεπιστήμιο Stanford και το Πανεπιστήμιο Carnegie Mellon που δημοσιεύθηκε τον Οκτώβριο. Αυτό σήμαινε ότι οι χρήστες δεν έπασχαν απαραίτητα από έλλειψη συναισθηματικής υποστήριξης από τους AI συντρόφους τους.
Μια άλλη επιλογή που εξετάζεται από το TRI για την προώθηση της υιοθέτησης είναι η διάθεση των συνόλων δεδομένων του ως open-source, καθώς οι τεχνολογικοί κολοσσοί της χώρας υποστηρίζουν το εγχώριο οικοσύστημα AI ανοιχτού κώδικα.
Ακόμα κι αν αυτά τα εξειδικευμένα σύνολα δεδομένων δεν χρησιμοποιηθούν τελικά από μεγάλες εταιρείες AI, η προσέγγιση ανοιχτού κώδικα θα επιτρέψει σε μεμονωμένους προγραμματιστές και επιχειρηματίες να τα υιοθετήσουν για τα δικά τους προϊόντα και εφαρμογές.
«Η διαφάνεια και η συνεργατική φύση του οικοσυστήματος ανοιχτού κώδικα μπορούν να βοηθήσουν στην αύξηση της ευαισθητοποίησης σχετικά με τα σύνολα δεδομένων μας και τελικά να προωθήσουν την υιοθέτηση σε πρακτικές εφαρμογές», δήλωσε η Lu.