Οι Κινέζοι ερευνητές έφεραν στο φως το πρώτο στον κόσμο open-source μοντέλο μετατροπής κειμένου σε ομιλία (TTS) που ενοποιεί πάνω από 20 αραβικές διαλέκτους σε ένα πλαίσιο Τεχνητής Νοημοσύνης. Αυτή η εξέλιξη αναμένεται να διευρύνει την τεχνολογική επιρροή της Κίνας στη Μέση Ανατολή, σύμφωνα με αναλυτές.
Ηγέτης στην προσπάθεια αυτή ήταν το X-LANCE Lab του Shanghai Jiao Tong University, ένα από τα κορυφαία ερευνητικά κέντρα στην επεξεργασία ήχου και γλώσσας της Κίνας. Το μοντέλο ονομάστηκε Habibi, που στα αραβικά σημαίνει «αγαπητέ/ή μου».
Στην παρουσίαση των ευρημάτων τους, η ερευνητική ομάδα, με επικεφαλής τον Chen Yushen, περιέγραψε το πρότζεκτ σε μια δημοσίευση ως «το πρώτο open-source πλαίσιο για ενοποιημένη συνθετική ομιλία αραβικών διαλέκτων». Οι συγγραφείς δήλωσαν στην δημοσίευση, που αναρτήθηκε τον προηγούμενο μήνα στο arXiv: «Καθ’ όσον γνωρίζουμε, η έρευνα για ενοποιημένες αραβικές διαλέκτους TTS απουσιάζει, πόσο μάλλον ένα open-source πλαίσιο».
Το Habibi διαθέτει δυνατότητα «zero-shot», που σημαίνει ότι το μοντέλο μπορεί εύκολα να κλωνοποιήσει μια φωνή χρησιμοποιώντας μόνο ένα σύντομο ηχητικό κλιπ αναφοράς, χωρίς προηγούμενη ρητή ή εκτεταμένη εκπαίδευση. Αυτό επιτρέπει εφαρμογές σε εξαιρετικά αποδοτικά σενάρια «on-the-fly».
Βασισμένο στο F5-TTS framework, η ομάδα έχει κάνει open-source το εκπαιδευμένο μοντέλο για να ενθαρρύνει περαιτέρω την έρευνα και την εκπαίδευση σε αραβικές διαλέκτους από το κοινό.
Πέρα από την καινοτομία του, οι γενετικές ικανότητες του Habibi θεωρούνται επίσης από τις ισχυρότερες στον τομέα του TTS αραβικών διαλέκτων, σύμφωνα με την εργασία. Οι συγγραφείς ανέφεραν ότι το ενοποιημένο πλαίσιο ξεπέρασε το Eleven v3 (alpha) της ElevenLabs – το οποίο χαρακτήρισαν ως «την ισχυρότερη διαθέσιμη εμπορική βάση» – στην παραγωγή ευρέως χρησιμοποιούμενων αραβικών διαλέκτων, όπως αυτές από τα Ηνωμένα Αραβικά Εμιράτα (ΗΑΕ), το Μαρόκο, την Αίγυπτο και την Αλγερία, σε διάφορες βασικές μετρήσεις. Η ElevenLabs, με έδρα τις ΗΠΑ, είναι μια εταιρεία λογισμικού γνωστή για τη σύνθεση ομιλίας.
Ο Chen, επικεφαλής ερευνητής του έργου, δήλωσε στην South China Morning Post ότι τα αραβικά, και ειδικά οι διάλεκτοί τους, ήταν από τα δυσκολότερα στην επεξεργασία γλώσσας. «Σε αυτόν τον τομέα, πρέπει να πω ότι είμαστε μόνο στην αρχή», τόνισε. Εξήγησε ότι ένας βασικός λόγος ήταν οι τεράστιες διαφορές που παρουσιάζουν οι αραβικές διάλεκτοι από την Σύγχρονη Πρότυπη Αραβική, η οποία χρησιμοποιείται μόνο σε επίσημες καταστάσεις. Η συνεχής εξέλιξη των διαφόρων διαλέκτων, σε συνδυασμό με την αφομοίωση άλλων γλωσσών, έχει εμβαθύνει περαιτέρω αυτές τις διαφορές. «Η γραπτή μορφή της αραβικής, γνωστή ως Σύγχρονη Πρότυπη Αραβική, διατηρείται σχεδόν αποκλειστικά για λογοτεχνία, εκπαίδευση και επίσημα πλαίσια, και σπάνια χρησιμοποιείται στην καθημερινή συνομιλία. Αυτό δημιουργεί μια σαφή απόκλιση μεταξύ της γλώσσας που γράφουν οι άνθρωποι και των διαλέκτων που πραγματικά μιλούν», ανέφερε.
Σημείωσε ότι ένα κοινό εμπόδιο για τα μοντέλα TTS ήταν το πρόβλημα «ένα προς πολλά», δηλαδή ότι ένα γραπτό κείμενο θα μπορούσε να προφερθεί με πολλούς διαφορετικούς τρόπους. Στις αραβικές διαλέκτους, αυτή η πρόκληση πολλαπλασιάζεται. Η έλλειψη υλικού διαλεκτικής γλώσσας για άντληση ήταν μια ακόμη πρόκληση, πρόσθεσε ο Chen, ελπίζοντας ότι «περισσότεροι φυσικοί ομιλητές θα μπορούσαν να ενταχθούν στην ομάδα». «Το τελικό εμπόδιο έγκειται στα δεδομένα», κατέληξε ο Chen. «Ακόμη και τα γενικής χρήσης αραβικά δεδομένα εκπαίδευσης είναι ήδη σπάνια, και τα υψηλής ποιότητας δεδομένα για συγκεκριμένες περιφερειακές διαλέκτους είναι εξαιρετικά σπάνια».
Άλλα εμπόδια – όπως η ιδιομορφία του αραβικού κειμένου που παραλείπει τα φωνήεντα και τα ασαφή όρια μεταξύ των διαλέκτων που μπορεί να προκαλέσουν στο μοντέλο την ανάμειξη προφορών – καθιστούν συλλογικά τη μελέτη ενός ενοποιημένου αραβικού διαλεκτικού μοντέλου ένα ανεξερεύνητο σύνορο και ένα κρίσιμο κενό στην ακαδημαϊκή έρευνα.
Ένας μεταδιδακτορικός ερευνητής στην επεξεργασία φυσικής γλώσσας στο Mohamed bin Zayed University of Artificial Intelligence του Άμπου Ντάμπι, δήλωσε ότι το προηγμένο open-source μοντέλο θα μπορούσε να προωθήσει αποτελεσματικά την εικόνα της Κίνας στην Τεχνητή Νοημοσύνη στη Μέση Ανατολή, ειδικά στην ακαδημαϊκή κοινότητα. Ο ερευνητής, που ζήτησε να παραμείνει ανώνυμος, σημείωσε ότι η φύση του open-source είναι κρίσιμο χαρακτηριστικό για την ακαδημαϊκή έρευνα, η οποία συχνά απαιτεί βαθιά δομική πρόσβαση στα μοντέλα Τεχνητής Νοημοσύνης. Αυτός είναι ο λόγος που το Qwen – ένα open-source μοντέλο Τεχνητής Νοημοσύνης που αναπτύχθηκε από την κινεζική Alibaba, ιδιοκτήτρια της SCMP – έχει κερδίσει την προσοχή στην παγκόσμια ακαδημαϊκή κοινότητα.
Ο Chen δήλωσε ότι ένα ικανό μοντέλο TTS σε αραβικές διαλέκτους έχει επίσης μεγάλες επιχειρηματικές δυνατότητες. Αυτή η ικανότητα μετατροπής κειμένου σε ομιλία έχει ευρείες εφαρμογές σε όλο το φάσμα των κοινωνικών δικτύων, όπως η παροχή εξατομικευμένου ήχου για podcast, βίντεο TikTok και μικρο-δράματα – ένας αναπτυσσόμενος τομέας που η Κίνα αναπτύσσει ραγδαία και εξάγει σε υπερπόντιες αγορές, ιδιαίτερα στη Μέση Ανατολή. Η Μέση Ανατολή και η Βόρεια Αφρική (MENA) αποτελούν παγκόσμια δύναμη σε ψηφιακούς χρήστες, ειδικά η περιοχή του Κόλπου. Σύμφωνα με στοιχεία της DataReportal για τις αρχές του 2025, η διείσδυση των μέσων κοινωνικής δικτύωσης στα ΗΑΕ έχει φτάσει σχεδόν το 100%, με περισσότερους από 11,3 εκατομμύρια ενεργούς χρήστες. Σε ολόκληρη την περιοχή MENA, οι χρήστες αφιερώνουν κατά μέσο όρο πάνω από τρεις ώρες την ημέρα σε κοινωνικές πλατφόρμες – πολύ πάνω από τον παγκόσμιο μέσο όρο.
Η τεχνολογία μετατροπής κειμένου σε ομιλία έχει επίσης δυνατότητες για εφαρμογές εξυπηρέτησης πελατών, σύμφωνα με τον Chen. Αυτό συνάδει με το ηλεκτρονικό εμπόριο, έναν ακόμη αναπτυσσόμενο τομέα στη Μέση Ανατολή στον οποίο οι κινεζικοί τεχνολογικοί γίγαντες στοιχηματίζουν βαριά καθώς επεκτείνονται παγκοσμίως. Πέρα από την ακαδημαϊκή αναγνώριση του μοντέλου, άλλοι προγραμματιστές από τον εμπορικό κόσμο θα μπορούσαν να προσαρμόσουν αυτό το σύστημα από την Κίνα.
Ο ερευνητής από το Άμπου Ντάμπι χαρακτήρισε το έργο «εξαιρετικά καινοτόμο» όσον αφορά την ενοποίηση δεκάδων διαλέκτων σε ένα σύστημα, αλλά ως προϊόν TTS για πρακτική χρήση, υπήρχε περιθώριο βελτίωσης. Ο Chen συμφώνησε, δηλώνοντας ότι θα έδινε «πέντε στα δέκα» για την απόδοση του μοντέλου, παρόλο που είχε ξεπεράσει το κορυφαίο πλαίσιο της ElevenLabs σε ορισμένες βασικές λειτουργίες. «Είμαστε οι πρώτοι που φτιάχνουμε το ενοποιημένο διαλεκτικό αραβικό μοντέλο, οπότε σε αυτόν τον τομέα πρέπει να πω ότι είμαστε μόνο στην αρχή», είπε ο Chen. «Ελπίζουμε ότι, κάνοντας το μοντέλο open-source, μπορούμε να συγκεντρώσουμε ευρύτερη κοινοτική ανατροφοδότηση για να αντιμετωπίσουμε συστηματικά συγκεκριμένα, στοχευμένα ζητήματα».