Το τελευταίο πειραματικό μοντέλο της κινεζικής startup DeepSeek υπόσχεται να αυξήσει την αποδοτικότητα και να βελτιώσει την ικανότητα της τεχνητής νοημοσύνης να διαχειρίζεται μεγάλες ποσότητες πληροφοριών με πολύ χαμηλότερο κόστος, αλλά παραμένουν ερωτήματα σχετικά με την αποτελεσματικότητα και την ασφάλεια της αρχιτεκτονικής.

Η DeepSeek προκάλεσε φρενίτιδα στη Silicon Valley όταν λάνσαρε ξαφνικά το πρώτο της μοντέλο, R1, πέρυσι, δείχνοντας ότι είναι εφικτό να εκπαιδευτούν μεγάλα γλωσσικά μοντέλα (LLMs) γρήγορα, σε λιγότερο ισχυρά chips και με λιγότερους πόρους.

1

Η εταιρεία κυκλοφόρησε τη Δευτέρα το DeepSeek-V3.2-Exp, μια πειραματική έκδοση του τρέχοντος μοντέλου της, DeepSeek-V3.1-Terminus, το οποίο συνεχίζει την αποστολή της για αύξηση της αποδοτικότητας στα συστήματα AI, σύμφωνα με ανάρτηση στο AI forum Hugging Face.

«Το DeepSeek V3.2 συνεχίζει να επικεντρώνεται στην αποδοτικότητα, τη μείωση κόστους και την κοινή χρήση του κώδικα ως open-source,» δήλωσε η Adina Yakefu, υπεύθυνη της κινεζικής κοινότητας στο Hugging Face, στο CNBC. «Η μεγάλη βελτίωση είναι ένα νέο χαρακτηριστικό που ονομάζεται DSA (DeepSeek Sparse Attention), το οποίο καθιστά την AI καλύτερη στη διαχείριση μακροσκελών εγγράφων και συνομιλιών. Επίσης, μειώνει στο μισό το κόστος λειτουργίας του μοντέλου σε σχέση με την προηγούμενη έκδοση.»

«Είναι σημαντικό, γιατί κάνει το μοντέλο πιο γρήγορο και οικονομικά αποδοτικό χωρίς αισθητή μείωση στην απόδοση,» δήλωσε ο Nick Patience, αντιπρόεδρος και υπεύθυνος του τομέα AI στην εταιρεία The Futurum Group. «Αυτό καθιστά την ισχυρή τεχνητή νοημοσύνη πιο προσιτή σε προγραμματιστές, ερευνητές και μικρότερες εταιρείες, κάτι που μπορεί να οδηγήσει σε ένα κύμα νέων καινοτόμων εφαρμογών.»

Τα υπέρ και τα κατά της «αραιής προσοχής» (sparse attention)

Ένα μοντέλο τεχνητής νοημοσύνης λαμβάνει αποφάσεις βασισμένο στα δεδομένα εκπαίδευσης και σε νέες πληροφορίες, όπως ένα prompt. Αν μια αεροπορική εταιρεία θέλει να βρει τη βέλτιστη διαδρομή από το Α στο Β, υπάρχουν πολλές επιλογές, αλλά δεν είναι όλες εφικτές. Φιλτράροντας τις λιγότερο βιώσιμες διαδρομές, μειώνεται δραματικά ο χρόνος, η κατανάλωση καυσίμου και τελικά το κόστος. Αυτό ακριβώς κάνει η «αραιή προσοχή» — λαμβάνει υπόψη μόνο τα δεδομένα που θεωρεί σημαντικά για την εκάστοτε εργασία, σε αντίθεση με άλλα μοντέλα που επεξεργάζονται όλα τα δεδομένα.

«Ουσιαστικά, αγνοείς πράγματα που νομίζεις ότι δεν είναι σημαντικά,» εξηγεί η Ekaterina Almasque, συνιδρύτρια και γενική εταίρος στο νέο venture capital fund BlankPage Capital.

Η αραιή προσοχή είναι πλεονέκτημα για την αποδοτικότητα και την επεκτασιμότητα της τεχνητής νοημοσύνης, δεδομένου ότι απαιτούνται λιγότεροι πόροι, όμως υπάρχει ανησυχία ότι μπορεί να μειώσει την αξιοπιστία των μοντέλων, λόγω της έλλειψης διαφάνειας στον τρόπο που απορρίπτεται η πληροφορία.

«Η πραγματικότητα είναι ότι αυτά τα μοντέλα έχουν χάσει πολλές αποχρώσεις,» λέει η Almasque, που υπήρξε πρώιμη υποστηρίκτρια των Dataiku και Darktrace και επενδύτρια στη Graphcore. «Το ερώτημα είναι: είχαν τον σωστό μηχανισμό για να αποκλείσουν μη σημαντικά δεδομένα ή μήπως απέκλεισαν και σημαντικά, ώστε το αποτέλεσμα να είναι πολύ λιγότερο σχετικό;»

Αυτό μπορεί να είναι ιδιαίτερα προβληματικό όσον αφορά την ασφάλεια της AI και την ενσωμάτωση (inclusivity), προσθέτει, σημειώνοντας ότι μπορεί να μην είναι «ούτε το πιο βέλτιστο, ούτε το ασφαλέστερο» μοντέλο σε σύγκριση με άλλες αρχιτεκτονικές.

Η DeepSeek, ωστόσο, υποστηρίζει ότι το πειραματικό της μοντέλο λειτουργεί εξίσου καλά με το V3.1-Terminus. Παρά τη φημολογία περί «φούσκας», η τεχνητή νοημοσύνη παραμένει στο επίκεντρο του γεωπολιτικού ανταγωνισμού μεταξύ ΗΠΑ και Κίνας για την πρωτοκαθεδρία στον χώρο.

Η Yakefu σημειώνει ότι τα μοντέλα της DeepSeek λειτουργούν «αμέσως» με κινεζικά AI chips, όπως τα Ascend και Cambricon, κάτι που σημαίνει ότι μπορούν να τρέξουν σε εγχώριο hardware χωρίς επιπλέον ρυθμίσεις.

Η DeepSeek μοιράστηκε επίσης τον πραγματικό προγραμματιστικό κώδικα και τα εργαλεία για τη χρήση του πειραματικού μοντέλου, λέει η ίδια. «Αυτό σημαίνει ότι άλλοι μπορούν να μάθουν από αυτό και να δημιουργήσουν τις δικές τους βελτιώσεις.»

Για την Almasque, όμως, αυτό σημαίνει επίσης ότι η τεχνολογία ίσως να μην είναι τόσο εύκολα προστατεύσιμη. «Η προσέγγιση δεν είναι κάτι εντελώς καινούργιο,» σημειώνει, αναφέροντας ότι η βιομηχανία «συζητά για sparse models από το 2015» και ότι η DeepSeek δεν μπορεί να κατοχυρώσει την τεχνολογία της με πατέντα λόγω του open source χαρακτήρα της. Το ανταγωνιστικό πλεονέκτημα της DeepSeek, λοιπόν, βρίσκεται στο πώς επιλέγει ποια πληροφορία να συμπεριλάβει, προσθέτει.

Η ίδια η εταιρεία παραδέχεται ότι το V3.2-Exp είναι «ένα ενδιάμεσο βήμα προς την αρχιτεκτονική επόμενης γενιάς», σύμφωνα με την ανάρτηση στο Hugging Face.

Όπως σημείωσε και ο Patience, «αυτό είναι το βασικό πλεονέκτημα της DeepSeek: η αποδοτικότητα γίνεται εξίσου σημαντική με τη δύναμη.»

«Η DeepSeek παίζει μακροπρόθεσμα, για να διατηρήσει την κοινότητα επενδυμένη στην πρόοδό της,» προσθέτει η Yakefu. «Ο κόσμος θα επιλέγει πάντα ό,τι είναι φθηνό, αξιόπιστο και αποτελεσματικό.»

Διαβάστε επίσης:

Alumil: Αίτηση για υπαγωγή τριών επενδυτικών σχεδίων στον αναπτυξιακό νόμο

Euronext: Φέρνει την πρώτη πλήρως ενοποιημένη πλατφόρμα ETF και ETP στην Ευρώπη

Σκλαβενίτης: Πάνω από 5,5 δισ. ευρώ ο ενοποιημένος τζίρος για το 2024