Εγγραφείτε στα καθημερινά και εβδομαδιαία ενημερωτικά δελτία μας για τις πιο πρόσφατες ενημερώσεις και αποκλειστικό περιεχόμενο σχετικά με την κορυφαία στον κλάδο κάλυψη τεχνητής νοημοσύνης. Μάθετε περισσότερα


Σε μια νέα μελέτη περίπτωσης, οι ερευνητές του Hugging Face απέδειξαν πώς μικρά γλωσσικά μοντέλα Τα (SLM) μπορούν να διαμορφωθούν ώστε να έχουν καλύτερη απόδοση από πολύ μεγαλύτερα μοντέλα. Τα ευρήματά τους δείχνουν ότι ένα μοντέλο Llama 3 με παραμέτρους 3Β μπορεί να ξεπεράσει την έκδοση 70B του μοντέλου σε πολύπλοκα μαθηματικά προβλήματα.

Το Hugging Face έχει πλήρως τεκμηριωμένη ολόκληρη τη διαδικασία και παρέχει έναν οδικό χάρτη για τις επιχειρήσεις που θέλουν να δημιουργήσουν τα δικά τους προσαρμοσμένα μοντέλα συλλογιστικής.

Πηγή εικόνας: Hugging Face

Κλιμάκωση υπολογισμός χρόνου δοκιμής

Το έργο είναι εμπνευσμένο από OpenAI o1το οποίο χρησιμοποιεί επιπλέον «σκέψη» για την επίλυση σύνθετων μαθηματικών, κωδικοποίησης και συλλογιστικών προβλημάτων.

Η βασική ιδέα πίσω από μοντέλα όπως το o1 είναι να κλιμακωθεί ο «υπολογισμός χρόνου δοκιμής», που σημαίνει αποτελεσματικά τη χρήση περισσότερων υπολογιστικών κύκλων κατά τη διάρκεια της εξαγωγής συμπερασμάτων για τον έλεγχο και την επαλήθευση διαφορετικών αποκρίσεων και διαδρομών συλλογισμού πριν από την παραγωγή της τελικής απάντησης. Η κλιμάκωση του υπολογισμού χρόνου δοκιμής είναι ιδιαίτερα χρήσιμη όταν δεν υπάρχει αρκετή μνήμη για την εκτέλεση ενός μεγάλου μοντέλου.

Δεδομένου ότι το o1 είναι ένα ιδιωτικό μοντέλο και το OpenAI παραμένει κλειστό σχετικά με τις εσωτερικές του λειτουργίες, οι ερευνητές κάνουν εικασίες σχετικά με τον τρόπο λειτουργίας του και προσπαθούν να αντιστρέψουν τη διαδικασία. Υπάρχουν ήδη αρκετές ανοίξτε εναλλακτικές λύσεις για το o1.

Η εργασία Hugging Face βασίζεται σε α Η μελέτη DeepMind κυκλοφόρησε τον Αύγουστοτο οποίο διερευνά τις ανταλλαγές μεταξύ του χρόνου συμπερασμάτων και του υπολογισμού πριν από την εκπαίδευση. Η μελέτη παρέχει εκτενείς κατευθυντήριες γραμμές σχετικά με τον τρόπο εξισορρόπησης της εκπαίδευσης και του υπολογισμού συμπερασμάτων για να έχετε τα καλύτερα αποτελέσματα για έναν σταθερό προϋπολογισμό.

Εκτός από τη χρήση επιπλέον υπολογισμού χρόνου συμπερασμάτων, η επιτυχία της τεχνικής εξαρτάται από δύο βασικά στοιχεία: Ένα μοντέλο ανταμοιβής που αξιολογεί τις απαντήσεις του SLM και έναν αλγόριθμο αναζήτησης που βελτιστοποιεί τη διαδρομή που ακολουθεί για να βελτιώσει τις απαντήσεις του.

Πηγή εικόνας: Hugging Face

Διαφορετικοί αλγόριθμοι συλλογισμού

Ο απλούστερος τρόπος για να χρησιμοποιήσετε την κλιμάκωση του χρόνου δοκιμής είναι η «ψηφοφορία πλειοψηφίας», στην οποία το ίδιο μήνυμα προτροπής αποστέλλεται στο μοντέλο πολλές φορές και επιλέγεται η υψηλότερη ψήφος. Σε απλά προβλήματα, η ψηφοφορία με πλειοψηφία μπορεί να αποδειχθεί χρήσιμη, αλλά τα κέρδη της γρήγορα φτάνουν σε σύνθετα προβλήματα συλλογιστικής ή εργασίες όπου τα σφάλματα είναι συνεπή μεταξύ των γενεών.

Μια πιο προηγμένη μέθοδος συλλογισμού είναι η “Best-of-N”. Σε αυτή την τεχνική, το SLM παράγει πολλαπλές απαντήσεις, αλλά αντί της πλειοψηφίας, χρησιμοποιείται ένα μοντέλο ανταμοιβής για την αξιολόγηση των απαντήσεων και την επιλογή της καλύτερης. Το “Weighted Best-of-N”, μια πιο διαφοροποιημένη εκδοχή αυτής της μεθόδου, επηρεάζει τη συνέπεια για την επιλογή απαντήσεων που είναι και σίγουρες και εμφανίζονται πιο συχνά από άλλες.

Οι ερευνητές χρησιμοποίησαν ένα «μοντέλο ανταμοιβής διαδικασίας» (PRM) που βαθμολογεί την απόκριση του SLM όχι μόνο στην τελική απάντηση αλλά και στα πολλαπλά στάδια που περνά για να την φτάσει. Τα πειράματά τους έδειξαν ότι το Weighted Best-of-N και τα PRM έφεραν το Φλόγα-3,2 1Β κοντά στο επίπεδο Llama-3.2 8B στο δύσκολο σημείο αναφοράς MATH-500.

Πηγή εικόνας: Hugging Face

Για να βελτιώσουν περαιτέρω την απόδοση του μοντέλου, οι ερευνητές πρόσθεσαν αλγόριθμους αναζήτησης στη διαδικασία συλλογιστικής του μοντέλου. Αντί να παράγουν την απάντηση σε ένα μόνο πέρασμα, χρησιμοποίησαν την «αναζήτηση δέσμης», έναν αλγόριθμο που καθοδηγεί τη διαδικασία απάντησης του μοντέλου βήμα προς βήμα.

Σε κάθε βήμα, το SLM δημιουργεί πολλαπλές μερικές απαντήσεις. Ο αλγόριθμος αναζήτησης χρησιμοποιεί το μοντέλο ανταμοιβής για να αξιολογήσει τις απαντήσεις και επιλέγει ένα υποσύνολο που αξίζει να διερευνηθεί περαιτέρω. Η διαδικασία επαναλαμβάνεται έως ότου το μοντέλο εξαντλήσει τον προϋπολογισμό συμπερασμάτων του ή φτάσει στη σωστή απάντηση. Με αυτόν τον τρόπο, ο προϋπολογισμός συμπερασμάτων μπορεί να περιοριστεί για να επικεντρωθεί στις πιο υποσχόμενες απαντήσεις.

Οι ερευνητές διαπίστωσαν ότι ενώ η αναζήτηση δέσμης βελτιώνει την απόδοση του μοντέλου σε σύνθετα προβλήματα, τείνει να υπολειτουργεί με άλλες τεχνικές σε απλά προβλήματα. Για να αντιμετωπίσουν αυτήν την πρόκληση, πρόσθεσαν δύο ακόμη στοιχεία στη στρατηγική συμπερασμάτων τους.

Πρώτα ήταν το Diverse Verifier Tree Search (DVTS), μια παραλλαγή της αναζήτησης δέσμης που διασφαλίζει ότι το SLM δεν κολλάει σε εσφαλμένες συλλογιστικές διαδρομές και διαφοροποιεί τους κλάδους απόκρισής του. Δεύτερον, ανέπτυξαν μια «στρατηγική υπολογιστικής βέλτιστης κλίμακας», όπως προτείνεται στο έγγραφο DeepMind, το οποίο επιλέγει δυναμικά την καλύτερη στρατηγική κλιμάκωσης χρόνου δοκιμής με βάση τη δυσκολία του προβλήματος εισαγωγής.

Ο συνδυασμός αυτών των τεχνικών επέτρεψε στο Llama-3.2 1B να ξεπεράσει το βάρος του και να ξεπεράσει το μοντέλο 8B με σημαντική διαφορά. Διαπίστωσαν επίσης ότι η στρατηγική ήταν επεκτάσιμη και όταν εφαρμόστηκε στο Llama-3.2 3B, μπόρεσαν να ξεπεράσουν το πολύ μεγαλύτερο μοντέλο 70B.

Δεν είναι ακόμα τέλεια λύση

Η κλιμάκωση του υπολογισμού χρόνου δοκιμής αλλάζει τη δυναμική του κόστους του μοντέλου. Οι επιχειρήσεις έχουν πλέον τη δυνατότητα να επιλέξουν πού θα διαθέσουν τους υπολογιστικούς τους πόρους. Για παράδειγμα, εάν δεν έχετε μνήμη ή μπορείτε να ανεχτείτε πιο αργούς χρόνους απόκρισης, μπορείτε να χρησιμοποιήσετε ένα μικρό μοντέλο και να ξοδέψετε περισσότερους κύκλους χρόνου συμπερασμάτων για να δημιουργήσετε πιο ακριβείς απαντήσεις.

Ωστόσο, η κλιμάκωση του χρόνου δοκιμής έχει επίσης τους περιορισμούς της. Για παράδειγμα, στα πειράματα που πραγματοποιήθηκαν από το Hugging Face, οι ερευνητές χρησιμοποίησαν ένα ειδικά εκπαιδευμένο μοντέλο Llama-3.1-8B ως PRM, το οποίο απαιτεί την παράλληλη εκτέλεση δύο μοντέλων (ακόμα και αν είναι πολύ πιο αποδοτικό ως προς τους πόρους από το μοντέλο 70B). Οι ερευνητές αναγνωρίζουν ότι το ιερό δισκοπότηρο της κλιμάκωσης του χρόνου δοκιμής είναι να υπάρχει «αυτοεπαλήθευση», όπου το αρχικό μοντέλο επαληθεύει τη δική του απάντηση σε αντίθεση με το να βασίζεται σε έναν εξωτερικό επαληθευτή. Αυτό είναι ένα ανοιχτό πεδίο έρευνας.

Η τεχνική κλιμάκωσης χρόνου δοκιμής που παρουσιάζεται σε αυτή τη μελέτη περιορίζεται επίσης σε προβλήματα όπου η απάντηση μπορεί να αξιολογηθεί σαφώς, όπως η κωδικοποίηση και τα μαθηματικά. Η δημιουργία μοντέλων ανταμοιβής και επαληθευτών για υποκειμενικές εργασίες όπως η δημιουργική γραφή και ο σχεδιασμός προϊόντων απαιτεί περαιτέρω έρευνα.

Αλλά αυτό που είναι σαφές είναι ότι έχει δημιουργηθεί η κλιμάκωση του χρόνου δοκιμής πολύ ενδιαφέρον και δραστηριότητα και μπορούμε να περιμένουμε να εμφανιστούν περισσότερα εργαλεία και τεχνικές τους επόμενους μήνες. Οι επιχειρήσεις θα είναι φρόνιμο να παρακολουθούν πώς αναπτύσσεται το τοπίο.

https://venturebeat.com/ai/hugging-face-shows-how-test-time-scaling-helps-small-language-models-punch-above-their-weight/?rand=423