Πρόκειται για μια πειραματική έκδοση του τρέχοντος μοντέλου DeepSeek-V3.1-Terminus
Το τελευταίο πειραματικό μοντέλο της κινεζικής νεοσύστατης εταιρείας DeepSeek υπόσχεται να αυξήσει την αποτελεσματικότητα και να βελτιώσει την ικανότητα της Τεχνητής Νοημοσύνης να χειρίζεται πολλές πληροφορίες με ένα κλάσμα του κόστους, αλλά παραμένουν ερωτήματα σχετικά με το πόσο αποτελεσματική και ασφαλής είναι η αρχιτεκτονική, όπως μεταδίδει το CNBC.
Το DeepSeek προκάλεσε πανικό στη Silicon Valley όταν κυκλοφόρησε ξαφνικά το πρώτο της μοντέλο R1 πέρυσι, δείχνοντας ότι είναι δυνατή η γρήγορη εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLM), σε λιγότερο ισχυρά τσιπ, χρησιμοποιώντας λιγότερους πόρους.
Η εταιρεία κυκλοφόρησε το DeepSeek-V3.2-Exp τη Δευτέρα, μια πειραματική έκδοση του τρέχοντος μοντέλου DeepSeek-V3.1-Terminus, το οποίο βασίζεται περαιτέρω στην αποστολή της να αυξήσει την αποδοτικότητα στα συστήματα τεχνητής νοημοσύνης, σύμφωνα με μια ανάρτηση στο φόρουμ τεχνητής νοημοσύνης Hugging Face .
«Το DeepSeek V3.2 συνεχίζει να εστιάζει στην αποτελεσματικότητα, τη μείωση του κόστους και την κοινή χρήση ανοιχτού κώδικα», δήλωσε στο CNBC η Adina Yakefu, επικεφαλής της κινεζικής κοινότητας στο Hugging Face. «Η μεγάλη βελτίωση είναι μια νέα λειτουργία που ονομάζεται DSA (DeepSeek Sparse Attention), η οποία κάνει την τεχνητή νοημοσύνη καλύτερη στη διαχείριση μεγάλων εγγράφων και συνομιλιών. Μειώνει επίσης το κόστος λειτουργίας της τεχνητής νοημοσύνης στο μισό σε σύγκριση με την προηγούμενη έκδοση».
«Είναι σημαντικό επειδή θα πρέπει να κάνει το μοντέλο πιο γρήγορο και πιο οικονομικό στη χρήση χωρίς αισθητή μείωση της απόδοσης», δήλωσε ο Nick Patience, αντιπρόεδρος και επικεφαλής πρακτικής για την Τεχνητή Νοημοσύνη στο The Futurum Group. «Αυτό καθιστά την ισχυρή Τεχνητή Νοημοσύνη πιο προσβάσιμη σε προγραμματιστές, ερευνητές και μικρότερες εταιρείες, οδηγώντας ενδεχομένως σε ένα κύμα νέων και καινοτόμων εφαρμογών».
Τα πλεονεκτήματα και τα μειονεκτήματα της περιορισμένης προσοχής
Ένα μοντέλο Τεχνητής Νοημοσύνης λαμβάνει αποφάσεις με βάση τα δεδομένα εκπαίδευσής του και νέες πληροφορίες, όπως μια προτροπή. Ας υποθέσουμε ότι μια αεροπορική εταιρεία θέλει να βρει την καλύτερη διαδρομή από το σημείο Α στο σημείο Β, ενώ υπάρχουν πολλές επιλογές, δεν είναι όλες εφικτές. Φιλτράροντας τις λιγότερο βιώσιμες διαδρομές, μειώνετε δραματικά τον χρόνο, τα καύσιμα και, τελικά, τα χρήματα που απαιτούνται για να πραγματοποιηθεί το ταξίδι. Αυτό ακριβώς κάνει η αραιή προσοχή, λαμβάνει υπόψη μόνο τα δεδομένα που θεωρεί σημαντικά δεδομένης της εργασίας που έχει αναλάβει, σε αντίθεση με άλλα μοντέλα μέχρι στιγμής που έχουν επεξεργαστεί όλα τα δεδομένα του μοντέλου.
«Ουσιαστικά, λοιπόν, αφαιρείς πράγματα που θεωρείς ότι δεν είναι σημαντικά», δήλωσε η Ekaterina Almasque, συνιδρύτρια και διευθύνουσα σύμβουλος του νέου fund επιχειρηματικών κεφαλαίων BlankPage Capital.
Η περιορισμένη προσοχή αποτελεί πλεονέκτημα για την αποτελεσματικότητα και την ικανότητα κλιμάκωσης της Τεχνητής Νοημοσύνης, δεδομένου ότι απαιτούνται λιγότεροι πόροι, αλλά μια ανησυχία είναι ότι θα μπορούσε να οδηγήσει σε μείωση της αξιοπιστίας των μοντέλων λόγω της έλλειψης εποπτείας ως προς το πώς και γιατί υποτιμά τις πληροφορίες.
«Η πραγματικότητα είναι ότι [τα μοντέλα αραιής προσοχής] έχουν χάσει πολλές αποχρώσεις», δήλωσε ο Almasque, ο οποίος ήταν πρώιμος υποστηρικτής των Dataiku και Darktrace και επενδυτής στην Graphcore. «Και τότε το πραγματικό ερώτημα είναι, είχαν τον σωστό μηχανισμό για να αποκλείσουν μη σημαντικά δεδομένα ή υπάρχει κάποιος μηχανισμός που αποκλείει πραγματικά σημαντικά δεδομένα και τότε το αποτέλεσμα θα είναι πολύ λιγότερο σχετικό;»
Αυτό θα μπορούσε να είναι ιδιαίτερα προβληματικό για την ασφάλεια και την συμπερίληψη της Τεχνητής Νοημοσύνης, σημείωσε ο επενδυτής, προσθέτοντας ότι μπορεί να μην είναι «το βέλτιστο ή το ασφαλέστερο» μοντέλο Τεχνητής Νοημοσύνης για χρήση σε σύγκριση με τους ανταγωνιστές ή τις παραδοσιακές αρχιτεκτονικές.
Ωστόσο, η DeepSeek λέει ότι το πειραματικό μοντέλο λειτουργεί στο ίδιο επίπεδο με το V3.1-Terminus. Παρά τις εικασίες για σχηματισμό φούσκας , η Τεχνητή Νοημοσύνη παραμένει στο επίκεντρο του γεωπολιτικού ανταγωνισμού, με τις ΗΠΑ και την Κίνα να ανταγωνίζονται για τη νικήτρια θέση. Ο Yakefu σημείωσε ότι τα μοντέλα της DeepSeek λειτουργούν «αμέσως μόλις τα βγάλετε από το κουτί» με τσιπ Τεχνητής Νοημοσύνης κινεζικής κατασκευής, όπως τα Ascend και Cambricon, πράγμα που σημαίνει ότι μπορούν να λειτουργούν τοπικά σε εγχώριο υλικό χωρίς καμία επιπλέον ρύθμιση.
Η DeepSeek μοιράστηκε επίσης τον πραγματικό κώδικα προγραμματισμού και τα εργαλεία που απαιτούνται για τη χρήση του πειραματικού μοντέλου, είπε. «Αυτό σημαίνει ότι και άλλοι άνθρωποι μπορούν να μάθουν από αυτό και να δημιουργήσουν τις δικές τους βελτιώσεις».
Αλλά για την Almasque, η ίδια η φύση αυτού σημαίνει ότι η τεχνολογία μπορεί να μην είναι υπερασπίσιμη. «Η προσέγγιση δεν είναι εξαιρετικά καινούργια», είπε, σημειώνοντας ότι ο κλάδος «μιλάει για σπάνια μοντέλα από το 2015» και ότι η DeepSeek δεν είναι σε θέση να κατοχυρώσει με δίπλωμα ευρεσιτεχνίας την τεχνολογία της λόγω του ανοιχτού κώδικα. Το ανταγωνιστικό πλεονέκτημα της DeepSeek, επομένως, πρέπει να έγκειται στον τρόπο με τον οποίο αποφασίζει ποιες πληροφορίες θα συμπεριλάβει, πρόσθεσε.
Η ίδια η εταιρεία αναγνωρίζει ότι η έκδοση V3.2-Exp είναι ένα «ενδιάμεσο βήμα προς την αρχιτεκτονική επόμενης γενιάς μας», σύμφωνα με την ανάρτηση στο Hugging Face.
Όπως επεσήμανε η Patience, «αυτό είναι το βασικό στοιχείο του DeepSeek: η αποδοτικότητα γίνεται εξίσου σημαντική με την ακατέργαστη ισχύ».
«Το DeepSeek παίζει μακροπρόθεσμα το παιχνίδι για να κρατήσει την κοινότητα αφοσιωμένη στην πρόοδό της», πρόσθεσε ο Yakefu. «Οι άνθρωποι θα επιλέγουν πάντα αυτό που είναι φθηνό, αξιόπιστο και αποτελεσματικό».
ΕΙΔΗΣΕΙΣ ΣΗΜΕΡΑ:
- Spitogatos: Αυτό είναι το… χρηματιστήριο της φοιτητικής στέγης
- Αποφυλακίστηκε o πρώην αστυνομικός και Tiktoker που είχε συλληφθεί για κατοχή ναρκωτικών
- BITE Awards 2025: Τέσσερις διακρίσεις τεχνολογικής καινοτομίας για την Μασούτης
- Τελεσίγραφο Τραμπ: Η Χαμάς έχει τρεις ή τέσσερις μέρες για να απαντήσει στο σχέδιο για τη Γάζα
- Ολοκληρώθηκε η συγχώνευση των Entersoft και Softone
- Τι περιλαμβάνει το σχέδιο νόμου για μειώσεις φόρων και αυξήσεις εισοδημάτων – Οι νέες επιμέρους ρυθμίσεις
- Δένδιας: Τι αλλάζει σε θητεία, εξαγορά και μισθολόγιο – Νωρίς για υποχρεωτική στράτευση γυναικών
- Χατζηθεοδοσίου: Τα χρέη των μικρομεσαίων προς τους παρόχους ενέργειας ξεπερνούν τα 4 δισ. ευρώ
Ακολουθήστε το financialreport.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις