Εγγραφείτε στα καθημερινά και εβδομαδιαία ενημερωτικά δελτία μας για τις πιο πρόσφατες ενημερώσεις και αποκλειστικό περιεχόμενο σχετικά με την κορυφαία στον κλάδο κάλυψη τεχνητής νοημοσύνης. Μάθετε περισσότερα
Το OpenAI προσκαλεί σιγά σιγά επιλεγμένους χρήστες να δοκιμάσουν ένα εντελώς νέο σύνολο μοντέλων συλλογισμών που ονομάζονται o3 και o3 mini, διάδοχοι των μοντέλων o1 και o1-mini που μόλις κυκλοφόρησε πλήρως νωρίτερα αυτόν τον μήνα.
Το OpenAI o3, που ονομάστηκε έτσι για να αποφευχθούν προβλήματα πνευματικών δικαιωμάτων με την τηλεφωνική εταιρεία O2 και επειδή ο Διευθύνων Σύμβουλος Sam Altman λέει ότι η εταιρεία «έχει την παράδοση να είναι πραγματικά κακή στα ονόματα», ανακοινώθηκε κατά τη διάρκεια της τελευταίας ημέρας των ζωντανών ροών «12 Days of OpenAI» σήμερα.
Ο Altman είπε ότι τα δύο νέα μοντέλα θα κυκλοφορήσουν αρχικά σε επιλεγμένους τρίτους ερευνητές δοκιμή ασφάλειαςμε το o3-mini να αναμένεται στα τέλη Ιανουαρίου 2025 και το o3 «λίγο μετά από αυτό».
«Θεωρούμε ότι αυτό είναι η αρχή της επόμενης φάσης της τεχνητής νοημοσύνης, όπου μπορείτε να χρησιμοποιήσετε αυτά τα μοντέλα για να κάνετε όλο και πιο περίπλοκες εργασίες που απαιτούν πολύ συλλογισμό», είπε ο Άλτμαν. «Για την τελευταία μέρα αυτής της εκδήλωσης σκεφτήκαμε ότι θα ήταν διασκεδαστικό να πάμε από το ένα μοντέλο στο επόμενο μοντέλο.
Η ανακοίνωση έρχεται μόλις μια ημέρα αφότου η Google αποκάλυψε και επέτρεψε στο κοινό να τη χρησιμοποιήσει νέο μοντέλο Gemini 2.0 Flash Thinkingένα άλλο ανταγωνιστικό μοντέλο «συλλογισμού» που, σε αντίθεση με τη σειρά OpenAI o1, επιτρέπει στους χρήστες να βλέπουν τα βήματα στη διαδικασία «σκέψης» του τεκμηριωμένα σε σημεία με κουκκίδες κειμένου.
Η κυκλοφορία του Gemini 2.0 Flash Thinking και τώρα η ανακοίνωση του o3 δείχνει ότι ο ανταγωνισμός μεταξύ OpenAI και Google, και το ευρύτερο πεδίο των παρόχων μοντέλων τεχνητής νοημοσύνης, εισέρχεται σε μια νέα και έντονη φάση καθώς προσφέρουν όχι μόνο LLM ή πολυτροπικά μοντέλα, αλλά προηγμένα συλλογιστικά μοντέλα επίσης. Αυτά μπορεί να είναι πιο εφαρμόσιμα σε πιο δύσκολα προβλήματα στην επιστήμη, τα μαθηματικά, την τεχνολογία, τη φυσική και άλλα.
Η καλύτερη απόδοση σε συγκριτικά κριτήρια τρίτων
Ο Altman είπε επίσης ότι το μοντέλο o3 ήταν «απίστευτο στην κωδικοποίηση» και τα σημεία αναφοράς που μοιράζονται το OpenAI το υποστηρίζουν, δείχνοντας ότι το μοντέλο ξεπερνά ακόμη και την απόδοση του o1 σε εργασίες προγραμματισμού.
• Εξαιρετική απόδοση κωδικοποίησης: Το o3 ξεπερνά το o1 κατά 22,8 ποσοστιαίες μονάδες στο SWE-Bench Verified και επιτυγχάνει βαθμολογία Codeforces 2727, ξεπερνώντας τη βαθμολογία του Chief Scientist του OpenAI 2665.
• Μάθηση στα Μαθηματικά και τις Φυσικές Επιστήμες: Το o3 βαθμολογείται με 96,7% στην εξέταση AIME 2024, χάνει μόνο μία ερώτηση και επιτυγχάνει 87,7% στο GPQA Diamond, ξεπερνώντας κατά πολύ τις επιδόσεις των ειδικών στον άνθρωπο.
• Οριακά σημεία αναφοράς: Το μοντέλο σημειώνει νέα ρεκόρ σε προκλητικά τεστ όπως τα Frontier Math της EpochAI, λύνοντας το 25,2% των προβλημάτων όπου κανένα άλλο μοντέλο δεν ξεπερνά το 2%. Στη δοκιμή ARC-AGI, το o3 τριπλασιάζει τη βαθμολογία του o1 και ξεπερνά το 85% (όπως επαληθεύτηκε ζωντανά από την ομάδα του ARC Prize), αντιπροσωπεύοντας ένα ορόσημο στην εννοιολογική συλλογιστική.
Διαβουλευτική ευθυγράμμιση
Παράλληλα με αυτές τις εξελίξεις, το OpenAI ενίσχυσε τη δέσμευσή του για ασφάλεια και ευθυγράμμιση.
Η εταιρεία παρουσίασε νέα έρευνα για τη διαβουλευτική ευθυγράμμισημια τεχνική που συνέβαλε στο να γίνει το o1 το πιο στιβαρό και ευθυγραμμισμένο μοντέλο του μέχρι σήμερα.
Αυτή η τεχνική ενσωματώνει ανθρώπινες προδιαγραφές ασφάλειας στα μοντέλα, δίνοντάς τους τη δυνατότητα να αιτιολογήσουν ρητά αυτές τις πολιτικές πριν δημιουργήσουν απαντήσεις.
Η στρατηγική επιδιώκει να λύσει κοινές προκλήσεις ασφάλειας σε LLMs, όπως η ευπάθεια σε επιθέσεις jailbreak και η υπερβολική άρνηση καλοήθων προτροπών, εξοπλίζοντας τα μοντέλα με συλλογιστική αλυσίδας σκέψης (CoT). Αυτή η διαδικασία επιτρέπει στα μοντέλα να ανακαλούν και να εφαρμόζουν δυναμικά τις προδιαγραφές ασφαλείας κατά την εξαγωγή συμπερασμάτων.
Η διαβουλευτική ευθυγράμμιση βελτιώνει προηγούμενες μεθόδους, όπως η ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF) και η συνταγματική τεχνητή νοημοσύνη, οι οποίες βασίζονται στις προδιαγραφές ασφαλείας μόνο για τη δημιουργία ετικετών αντί να ενσωματώνουν τις πολιτικές απευθείας στα μοντέλα.
Προσαρμόζοντας τα LLM σχετικά με τις προτροπές που σχετίζονται με την ασφάλεια και τις σχετικές προδιαγραφές τους, αυτή η προσέγγιση δημιουργεί μοντέλα ικανά να συλλογιστούν βάσει πολιτικής, χωρίς να στηρίζονται σε μεγάλο βαθμό σε δεδομένα με ετικέτα ανθρώπου.
Τα αποτελέσματα που κοινοποιήθηκαν από ερευνητές του OpenAI σε α νέο, μη αξιολογημένο έγγραφο υποδεικνύουν ότι αυτή η μέθοδος βελτιώνει την απόδοση σε δείκτες αναφοράς ασφαλείας, μειώνει τα επιβλαβή αποτελέσματα και διασφαλίζει την καλύτερη τήρηση των οδηγιών περιεχομένου και στυλ.
Τα βασικά ευρήματα υπογραμμίζουν τις προόδους του μοντέλου o1 σε σχέση με προκατόχους όπως το GPT-4o και άλλα μοντέλα τελευταίας τεχνολογίας. Η συστηματική ευθυγράμμιση επιτρέπει στη σειρά o1 να υπερέχει στην αντίσταση στα jailbreak και στην παροχή ασφαλών ολοκληρώσεων, ενώ ελαχιστοποιεί τις υπερβολικές αρνήσεις σε καλοήθεις προτροπές. Επιπλέον, η μέθοδος διευκολύνει τη γενίκευση εκτός διανομής, επιδεικνύοντας στιβαρότητα σε πολύγλωσσα και κωδικοποιημένα σενάρια jailbreak. Αυτές οι βελτιώσεις ευθυγραμμίζονται με τον στόχο του OpenAI να κάνει τα συστήματα τεχνητής νοημοσύνης πιο ασφαλή και πιο ερμηνεύσιμα καθώς αυξάνονται οι δυνατότητές τους.
Αυτή η έρευνα θα παίξει επίσης βασικό ρόλο στην ευθυγράμμιση των o3 και o3-mini, διασφαλίζοντας ότι οι δυνατότητές τους είναι ταυτόχρονα ισχυρές και υπεύθυνες.
Πώς να υποβάλετε αίτηση για πρόσβαση στο τεστ o3 και o3-mini
Οι αιτήσεις για έγκαιρη πρόσβαση είναι πλέον ανοιχτές στο Ιστότοπος OpenAI και θα κλείσει στις 10 Ιανουαρίου 2025.
Οι υποψήφιοι πρέπει συμπληρώστε ένα διαδικτυακό μορφή που τους ζητά μια ποικιλία πληροφοριών, συμπεριλαμβανομένης της εστίασης στην έρευνα, της προηγούμενης εμπειρίας και συνδέσμων με προηγούμενες δημοσιευμένες εργασίες και τα αποθετήρια κώδικα τους στο Github, και επιλέγουν ποια από τα μοντέλα — o3 ή o3-mini — θέλουν επίσης να δοκιμάσουν ως προς τι σκοπεύουν να τα χρησιμοποιήσουν.
Σε επιλεγμένους ερευνητές θα παραχωρηθεί πρόσβαση στα o3 και o3-mini για να εξερευνήσουν τις δυνατότητές τους και να συμβάλουν στις αξιολογήσεις ασφάλειας, αν και το έντυπο του OpenAI προειδοποιεί ότι το o3 δεν θα είναι διαθέσιμο για αρκετές εβδομάδες.
Οι ερευνητές ενθαρρύνονται να αναπτύξουν αξιόπιστες αξιολογήσεις, να δημιουργήσουν ελεγχόμενες επιδείξεις ικανοτήτων υψηλού κινδύνου και να δοκιμάσουν μοντέλα σε σενάρια που δεν είναι δυνατά με ευρέως υιοθετημένα εργαλεία.
Αυτή η πρωτοβουλία βασίζεται στις καθιερωμένες πρακτικές της εταιρείας, συμπεριλαμβανομένων αυστηρών εσωτερικών δοκιμών ασφάλειας, συνεργασιών με οργανισμούς όπως τα Ινστιτούτα Ασφάλειας Τεχνητής Νοημοσύνης των ΗΠΑ και του Ηνωμένου Βασιλείου και το Πλαίσιο Ετοιμότητας.
Το OpenAI θα εξετάζει τις εφαρμογές σε κυλιόμενη βάση, με τις επιλογές να ξεκινούν αμέσως.
Ένα νέο άλμα προς τα εμπρός;
Η εισαγωγή των o3 και o3-mini σηματοδοτεί ένα άλμα προς τα εμπρός στην απόδοση της τεχνητής νοημοσύνης, ιδιαίτερα σε τομείς που απαιτούν προηγμένες δυνατότητες συλλογιστικής και επίλυσης προβλημάτων.
Με τα εξαιρετικά αποτελέσματά τους σχετικά με την κωδικοποίηση, τα μαθηματικά και τα εννοιολογικά σημεία αναφοράς, αυτά τα μοντέλα υπογραμμίζουν την ταχεία πρόοδο που σημειώνεται στην έρευνα της τεχνητής νοημοσύνης.
Προσκαλώντας την ευρύτερη ερευνητική κοινότητα να συνεργαστεί σε δοκιμές ασφάλειας, το OpenAI στοχεύει να διασφαλίσει ότι αυτές οι δυνατότητες αναπτύσσονται με υπευθυνότητα.
Δείτε το stream παρακάτω: