×

×
  • World News
  • Russia
  • China
  • Culture
  • Celebrity & Entertainment
  • Health & Fitness
Thursday
04
Jun 2026
weather symbol
Athens 14°C
  • Home
  • World News
  • Russia
  • China
  • Culture
  • Celebrity & Entertainment
  • Health & Fitness
Contact follow GlobNews:

Το Habibi “μιλάει” αραβικά: Το νέο AI μοντέλο που ανοίγει δρόμους στην Τεχνητή Νοημοσύνη

Κινέζοι ερευνητές παρουσίασαν το πρώτο open-source μοντέλο μετατροπής κειμένου σε ομιλία που κατανοεί 20+ αραβικές διαλέκτους, ενισχύοντας την τεχνολογική επιρροή της Κίνας στη Μέση Ανατολή.

Μυρτώ Αργυρού 28 Φεβρουαρίου 07:55

Οι Κινέζοι ερευνητές έφεραν στο φως το πρώτο στον κόσμο open-source μοντέλο μετατροπής κειμένου σε ομιλία (TTS) που ενοποιεί πάνω από 20 αραβικές διαλέκτους σε ένα πλαίσιο Τεχνητής Νοημοσύνης. Αυτή η εξέλιξη αναμένεται να διευρύνει την τεχνολογική επιρροή της Κίνας στη Μέση Ανατολή, σύμφωνα με αναλυτές.

Ηγέτης στην προσπάθεια αυτή ήταν το X-LANCE Lab του Shanghai Jiao Tong University, ένα από τα κορυφαία ερευνητικά κέντρα στην επεξεργασία ήχου και γλώσσας της Κίνας. Το μοντέλο ονομάστηκε Habibi, που στα αραβικά σημαίνει «αγαπητέ/ή μου».

Στην παρουσίαση των ευρημάτων τους, η ερευνητική ομάδα, με επικεφαλής τον Chen Yushen, περιέγραψε το πρότζεκτ σε μια δημοσίευση ως «το πρώτο open-source πλαίσιο για ενοποιημένη συνθετική ομιλία αραβικών διαλέκτων». Οι συγγραφείς δήλωσαν στην δημοσίευση, που αναρτήθηκε τον προηγούμενο μήνα στο arXiv: «Καθ’ όσον γνωρίζουμε, η έρευνα για ενοποιημένες αραβικές διαλέκτους TTS απουσιάζει, πόσο μάλλον ένα open-source πλαίσιο».

Το Habibi διαθέτει δυνατότητα «zero-shot», που σημαίνει ότι το μοντέλο μπορεί εύκολα να κλωνοποιήσει μια φωνή χρησιμοποιώντας μόνο ένα σύντομο ηχητικό κλιπ αναφοράς, χωρίς προηγούμενη ρητή ή εκτεταμένη εκπαίδευση. Αυτό επιτρέπει εφαρμογές σε εξαιρετικά αποδοτικά σενάρια «on-the-fly».

Βασισμένο στο F5-TTS framework, η ομάδα έχει κάνει open-source το εκπαιδευμένο μοντέλο για να ενθαρρύνει περαιτέρω την έρευνα και την εκπαίδευση σε αραβικές διαλέκτους από το κοινό.

Πέρα από την καινοτομία του, οι γενετικές ικανότητες του Habibi θεωρούνται επίσης από τις ισχυρότερες στον τομέα του TTS αραβικών διαλέκτων, σύμφωνα με την εργασία. Οι συγγραφείς ανέφεραν ότι το ενοποιημένο πλαίσιο ξεπέρασε το Eleven v3 (alpha) της ElevenLabs – το οποίο χαρακτήρισαν ως «την ισχυρότερη διαθέσιμη εμπορική βάση» – στην παραγωγή ευρέως χρησιμοποιούμενων αραβικών διαλέκτων, όπως αυτές από τα Ηνωμένα Αραβικά Εμιράτα (ΗΑΕ), το Μαρόκο, την Αίγυπτο και την Αλγερία, σε διάφορες βασικές μετρήσεις. Η ElevenLabs, με έδρα τις ΗΠΑ, είναι μια εταιρεία λογισμικού γνωστή για τη σύνθεση ομιλίας.

Ο Chen, επικεφαλής ερευνητής του έργου, δήλωσε στην South China Morning Post ότι τα αραβικά, και ειδικά οι διάλεκτοί τους, ήταν από τα δυσκολότερα στην επεξεργασία γλώσσας. «Σε αυτόν τον τομέα, πρέπει να πω ότι είμαστε μόνο στην αρχή», τόνισε. Εξήγησε ότι ένας βασικός λόγος ήταν οι τεράστιες διαφορές που παρουσιάζουν οι αραβικές διάλεκτοι από την Σύγχρονη Πρότυπη Αραβική, η οποία χρησιμοποιείται μόνο σε επίσημες καταστάσεις. Η συνεχής εξέλιξη των διαφόρων διαλέκτων, σε συνδυασμό με την αφομοίωση άλλων γλωσσών, έχει εμβαθύνει περαιτέρω αυτές τις διαφορές. «Η γραπτή μορφή της αραβικής, γνωστή ως Σύγχρονη Πρότυπη Αραβική, διατηρείται σχεδόν αποκλειστικά για λογοτεχνία, εκπαίδευση και επίσημα πλαίσια, και σπάνια χρησιμοποιείται στην καθημερινή συνομιλία. Αυτό δημιουργεί μια σαφή απόκλιση μεταξύ της γλώσσας που γράφουν οι άνθρωποι και των διαλέκτων που πραγματικά μιλούν», ανέφερε.

Σημείωσε ότι ένα κοινό εμπόδιο για τα μοντέλα TTS ήταν το πρόβλημα «ένα προς πολλά», δηλαδή ότι ένα γραπτό κείμενο θα μπορούσε να προφερθεί με πολλούς διαφορετικούς τρόπους. Στις αραβικές διαλέκτους, αυτή η πρόκληση πολλαπλασιάζεται. Η έλλειψη υλικού διαλεκτικής γλώσσας για άντληση ήταν μια ακόμη πρόκληση, πρόσθεσε ο Chen, ελπίζοντας ότι «περισσότεροι φυσικοί ομιλητές θα μπορούσαν να ενταχθούν στην ομάδα». «Το τελικό εμπόδιο έγκειται στα δεδομένα», κατέληξε ο Chen. «Ακόμη και τα γενικής χρήσης αραβικά δεδομένα εκπαίδευσης είναι ήδη σπάνια, και τα υψηλής ποιότητας δεδομένα για συγκεκριμένες περιφερειακές διαλέκτους είναι εξαιρετικά σπάνια».

Άλλα εμπόδια – όπως η ιδιομορφία του αραβικού κειμένου που παραλείπει τα φωνήεντα και τα ασαφή όρια μεταξύ των διαλέκτων που μπορεί να προκαλέσουν στο μοντέλο την ανάμειξη προφορών – καθιστούν συλλογικά τη μελέτη ενός ενοποιημένου αραβικού διαλεκτικού μοντέλου ένα ανεξερεύνητο σύνορο και ένα κρίσιμο κενό στην ακαδημαϊκή έρευνα.

Ένας μεταδιδακτορικός ερευνητής στην επεξεργασία φυσικής γλώσσας στο Mohamed bin Zayed University of Artificial Intelligence του Άμπου Ντάμπι, δήλωσε ότι το προηγμένο open-source μοντέλο θα μπορούσε να προωθήσει αποτελεσματικά την εικόνα της Κίνας στην Τεχνητή Νοημοσύνη στη Μέση Ανατολή, ειδικά στην ακαδημαϊκή κοινότητα. Ο ερευνητής, που ζήτησε να παραμείνει ανώνυμος, σημείωσε ότι η φύση του open-source είναι κρίσιμο χαρακτηριστικό για την ακαδημαϊκή έρευνα, η οποία συχνά απαιτεί βαθιά δομική πρόσβαση στα μοντέλα Τεχνητής Νοημοσύνης. Αυτός είναι ο λόγος που το Qwen – ένα open-source μοντέλο Τεχνητής Νοημοσύνης που αναπτύχθηκε από την κινεζική Alibaba, ιδιοκτήτρια της SCMP – έχει κερδίσει την προσοχή στην παγκόσμια ακαδημαϊκή κοινότητα.

Ο Chen δήλωσε ότι ένα ικανό μοντέλο TTS σε αραβικές διαλέκτους έχει επίσης μεγάλες επιχειρηματικές δυνατότητες. Αυτή η ικανότητα μετατροπής κειμένου σε ομιλία έχει ευρείες εφαρμογές σε όλο το φάσμα των κοινωνικών δικτύων, όπως η παροχή εξατομικευμένου ήχου για podcast, βίντεο TikTok και μικρο-δράματα – ένας αναπτυσσόμενος τομέας που η Κίνα αναπτύσσει ραγδαία και εξάγει σε υπερπόντιες αγορές, ιδιαίτερα στη Μέση Ανατολή. Η Μέση Ανατολή και η Βόρεια Αφρική (MENA) αποτελούν παγκόσμια δύναμη σε ψηφιακούς χρήστες, ειδικά η περιοχή του Κόλπου. Σύμφωνα με στοιχεία της DataReportal για τις αρχές του 2025, η διείσδυση των μέσων κοινωνικής δικτύωσης στα ΗΑΕ έχει φτάσει σχεδόν το 100%, με περισσότερους από 11,3 εκατομμύρια ενεργούς χρήστες. Σε ολόκληρη την περιοχή MENA, οι χρήστες αφιερώνουν κατά μέσο όρο πάνω από τρεις ώρες την ημέρα σε κοινωνικές πλατφόρμες – πολύ πάνω από τον παγκόσμιο μέσο όρο.

Η τεχνολογία μετατροπής κειμένου σε ομιλία έχει επίσης δυνατότητες για εφαρμογές εξυπηρέτησης πελατών, σύμφωνα με τον Chen. Αυτό συνάδει με το ηλεκτρονικό εμπόριο, έναν ακόμη αναπτυσσόμενο τομέα στη Μέση Ανατολή στον οποίο οι κινεζικοί τεχνολογικοί γίγαντες στοιχηματίζουν βαριά καθώς επεκτείνονται παγκοσμίως. Πέρα από την ακαδημαϊκή αναγνώριση του μοντέλου, άλλοι προγραμματιστές από τον εμπορικό κόσμο θα μπορούσαν να προσαρμόσουν αυτό το σύστημα από την Κίνα.

Ο ερευνητής από το Άμπου Ντάμπι χαρακτήρισε το έργο «εξαιρετικά καινοτόμο» όσον αφορά την ενοποίηση δεκάδων διαλέκτων σε ένα σύστημα, αλλά ως προϊόν TTS για πρακτική χρήση, υπήρχε περιθώριο βελτίωσης. Ο Chen συμφώνησε, δηλώνοντας ότι θα έδινε «πέντε στα δέκα» για την απόδοση του μοντέλου, παρόλο που είχε ξεπεράσει το κορυφαίο πλαίσιο της ElevenLabs σε ορισμένες βασικές λειτουργίες. «Είμαστε οι πρώτοι που φτιάχνουμε το ενοποιημένο διαλεκτικό αραβικό μοντέλο, οπότε σε αυτόν τον τομέα πρέπει να πω ότι είμαστε μόνο στην αρχή», είπε ο Chen. «Ελπίζουμε ότι, κάνοντας το μοντέλο open-source, μπορούμε να συγκεντρώσουμε ευρύτερη κοινοτική ανατροφοδότηση για να αντιμετωπίσουμε συστηματικά συγκεκριμένα, στοχευμένα ζητήματα».

#αραβικά#γλώσσες#έρευνα#Κίνα#τεχνητή νοημοσύνη
> More China

GlobNews – Τα σημαντικότερα νέα από όλο τον κόσμο

> Latest Stories

Συμφωνία για κατάπαυση του πυρός μεταξύ Ισραήλ και Λιβάνου μετά τις συνομιλίες στην Washington

4 Ιουνίου 2026

Ινδονησία: Συνελήφθη ο αναπληρωτής υπουργός Μετανάστευσης Silmy Karim για διαφθορά

4 Ιουνίου 2026

97η ημέρα συγκρούσεων: Αδιέξοδο στις συνομιλίες ΗΠΑ-Ιράν και νέες ισραηλινές επιθέσεις στον Λίβανο

4 Ιουνίου 2026

Οι σταθερές της Μέσης Ανατολής που δεν θα αλλάξουν μετά τον πόλεμο ΗΠΑ-Ισραήλ κατά του Ιράν

4 Ιουνίου 2026

Gaza: Το σχέδιο των 15 σημείων που μετατρέπει την ανοικοδόμηση σε εργαλείο πίεσης

4 Ιουνίου 2026

Robert dos Santos: Η ταινία που κυκλοφορεί αποκλειστικά σε VHS μετά από 20 χρόνια

4 Ιουνίου 2026

Η Ρωσία επιστρατεύει τεχνητή νοημοσύνη για τη δημιουργία εξατομικευμένων εμβολίων κατά του καρκίνου

4 Ιουνίου 2026

Γιατί ο Λευκός Οίκος δημιούργησε την ιστοσελίδα Alien.gov για τις συλλήψεις μεταναστών

4 Ιουνίου 2026
All News

> China

Έξι παιδιά με μυϊκή ατροφία κατάφεραν να σταθούν όρθια χάρη σε κινεζικό ρομπότ

Μια πρωτοποριακή τεχνολογία που εφαρμόζει αντίσταση αντί για υποστήριξη, δίνει νέα ελπίδα σε ασθενείς με νευρομυϊκές παθήσεις.

4 Ιουνίου 2026

Πώς το Πεκίνο σχεδιάζει να απαντήσει στη στρατιωτική συνεργασία Ιαπωνίας και Φιλιππίνων

4 Ιουνίου 2026

Η Cheng Li-wun ζητά ειρήνη και συνεργασία μεταξύ ΗΠΑ, Κίνας και Ταϊβάν κατά την επίσκεψή της

4 Ιουνίου 2026

Πιέζει για νέες παραγγελίες αεροσκαφών Boeing από την Κίνα ο Scott Bessent

4 Ιουνίου 2026

Πεκίνο: Οι αλλεπάλληλες επισκέψεις Trump και Putin αναδεικνύουν τη νέα παγκόσμια σκακιέρα

4 Ιουνίου 2026
All News
Πολιτική Απορρήτου Πολιτική Cookies Όροι Χρήσης
Powered by Glob News
Copyright © 2026 Glob News