Η κινεζική εταιρεία τεχνητής νοημοσύνης DeepSeek κρατά τον κόσμο σε αγωνία σχετικά με την ημερομηνία κυκλοφορίας των πολυαναμενόμενων ενημερώσεων στα μοντέλα της V3 και R1. Οι αναλυτές εικάζουν, μετά τη δημοσίευση τεχνικών εργασιών από την εταιρεία.
Οι εργασίες αυτές υπογραμμίζουν τις προσπάθειες της DeepSeek να βελτιώσει την υποκείμενη υποδομή των συστημάτων τεχνητής νοημοσύνης στην Κίνα. Αυτό συμβαίνει σε μια περίοδο όπου οι γεωπολιτικές εντάσεις και τα εγχώρια παραγωγικά εμπόδια περιορίζουν την πρόσβαση της χώρας σε προηγμένα ημιαγωγούς, απαραίτητους για την εκπαίδευση νέων μοντέλων. Όπως δήλωσε ο Zhang Ruiwang, αρχιτέκτονας συστημάτων πληροφορικής που εργάζεται στον τομέα του διαδικτύου στο Πεκίνο, “Η DeepSeek απλώς θέλει να αποδείξει ότι η καινοτομία στην υποδομή τεχνητής νοημοσύνης θα οδηγήσει σε αποδοτικότητα και περαιτέρω κλιμάκωση της απόδοσης των μοντέλων.”
Παρόλα αυτά, η παγκόσμια κοινότητα της τεχνητής νοημοσύνης στροβιλίζεται από εικασίες σχετικά με πιθανές καθυστερήσεις στην κυκλοφορία των μοντέλων επόμενης γενιάς V4 και R2 από την startup της Hangzhou. Αυτά τα μοντέλα θα διαδεχθούν τα V3, που κυκλοφόρησαν τον Δεκέμβριο του 2024, και τα R1, τα οποία κυκλοφόρησαν τον Ιανουάριο του περασμένου έτους. Η DeepSeek αρνήθηκε να σχολιάσει τις αναφορές ότι το V4 θα κυκλοφορήσει κατά τη διάρκεια του Σεληνιακού Νέου Έτους.
Εκτός από τους περιορισμούς των ΗΠΑ στην πρόσβαση της Κίνας σε υπερσύγχρονες μονάδες επεξεργασίας γραφικών (GPUs) και προηγμένο εξοπλισμό κατασκευής τσιπ, οι παγκόσμιοι προγραμματιστές τεχνητής νοημοσύνης αντιμετωπίζουν επί του παρόντος έλλειψη τσιπ μνήμης, λόγω της υψηλής ζήτησης για αυτούς τους ημιαγωγούς στα κέντρα δεδομένων επιχειρήσεων.
Την Τρίτη, η DeepSeek δημοσίευσε μια νέα τεχνική εργασία που πρότεινε μια καινοτόμο τεχνική για την εκπαίδευση μοντέλων, η οποία, σύμφωνα με τους ερευνητές, θα μπορούσε να διευκολύνει την “επιθετική επέκταση παραμέτρων”, παρακάμπτοντας τους περιορισμούς της μνήμης GPU. Αυτή η εργασία εισήγαγε μια τεχνική “υπό όρους μνήμης”, γνωστή ως Engram, για την αντιμετώπιση ενός βασικού εμποδίου στην κλιμάκωση των μοντέλων τεχνητής νοημοσύνης: την περιορισμένη χωρητικότητα της μνήμης υψηλού εύρους ζώνης της GPU.
Αυτό ακολούθησε την κυκλοφορία από την DeepSeek μιας ενημερωμένης τεχνικής εργασίας για το R1, η οποία παρουσίαζε τη συμβολή 18 βασικών επιστημόνων της. Η εργασία υποδήλωνε ότι η DeepSeek διατήρησε και τους 18 επιστήμονες πίσω από τις προσπάθειες ανάπτυξης μοντέλων τεχνητής νοημοσύνης, καθώς και πολλούς από τους 176 συντελεστές του έργου R1, παρά τον έντονο ανταγωνισμό για ταλέντα στον κλάδο της τεχνητής νοημοσύνης της Κίνας.
Την τελευταία ημέρα του 2025, η DeepSeek δημοσίευσε μια τεχνική εργασία, με τον ιδρυτή και CEO Liang Wenfeng μεταξύ των 19 συν-συγγραφέων, σχετικά με τις “πολλαπλές περιορισμένες υπερ-συνδέσεις” (mHC) – ένα γενικό πλαίσιο για την εκπαίδευση συστημάτων τεχνητής νοημοσύνης σε κλίμακα, το οποίο υπέδειξε “υποσχόμενες κατευθύνσεις για την εξέλιξη των θεμελιωδών μοντέλων”. Η μέθοδος mHC αποτελεί μέρος της ώθησης της DeepSeek για να καταστήσει τα μοντέλα τεχνητής νοημοσύνης της πιο οικονομικά αποδοτικά, καθώς προσπαθεί να συμβαδίσει με τους καλύτερα χρηματοδοτούμενους Αμερικανούς ανταγωνιστές με μεγαλύτερη πρόσβαση σε προηγμένη υπολογιστική ισχύ.
Σύμφωνα με τον Zhang, αυτές οι καινοτομίες της DeepSeek θα μπορούσαν να αποτελέσουν ευλογία για τους Κινέζους προγραμματιστές με περιορισμένους υπολογιστικούς και κεφαλαιακούς πόρους, καθώς η εταιρεία επικεντρώθηκε στην επιστροφή στα βασικά και στη βελτίωση αυτών των διαδικασιών. Ο ιστότοπος της εταιρείας περιλάμβανε οκτώ θεμελιώδη μοντέλα, συμπεριλαμβανομένων νέων εκδόσεων V3 – V3.2 και V3.2-Speciale – που κυκλοφόρησαν τον περασμένο μήνα.
Εάν η DeepSeek κυκλοφορούσε μοντέλα επόμενης γενιάς, είτε V4 είτε R2, γύρω στο Σεληνιακό Νέο Έτος, ο Zhang δήλωσε ότι η εταιρεία δεν αναμενόταν να εκπλήξει τον κόσμο όπως έκανε πέρυσι. “Αυτό που θα ήταν πιο σημαντικό θα ήταν ότι μια κινεζική εταιρεία έφερε νέες καινοτομίες για να φέρει την τεχνητή νοημοσύνη στα χέρια όλων”, δήλωσε ο Zhang. Όταν το βρετανικό περιοδικό Nature τον περασμένο μήνα παρουσίασε τον Liang της DeepSeek ως μέρος των 10 κορυφαίων “ανθρώπων που διαμόρφωσαν την επιστήμη το 2025″, αναγνώρισε τη διαταραχή που προκλήθηκε από την κυκλοφορία του R1 τον Ιανουάριο του περασμένου έτους, καθώς η κινεζική startup έδειξε ότι “οι Ηνωμένες Πολιτείες δεν ήταν τόσο μπροστά στην τεχνητή νοημοσύνη όσο πολλοί ειδικοί πίστευαν.”