Η γενική επανάσταση AI έχει μετατραπεί σε παγκόσμιο αγώνα, στην οποία οι πρωτοβουλίες του μείγματος και της ανοιχτής πηγής των ιδιωτικών εταιρειών ανταγωνίζονται για να γίνουν οι πιο δημοφιλείς και ισχυροί. Πολλοί επιλέγουν να προωθήσουν τις δεξιότητές τους αποδεικνύοντας την απόδοσή τους σε γενικές δοκιμές και επίπεδα σε κανονική κατάταξη.
Αλλά η εγκυρότητα αυτών των κατάταξης έχει τεθεί υπό αμφισβήτηση Νέα έρευνα Ο διακομιστής Preprint του Πανεπιστημίου Cornell που δημοσιεύθηκε στο Arxiv Δείχνει ότι είναι δυνατόν να βιαστούμε τα αποτελέσματα ενός μοντέλου με μόνο μερικές εκατοντάδες ψήφους.
“Όταν μιλάμε για το μοντέλο μεγάλης γλώσσας, η απόδοσή τους στο σημείο αναφοράς είναι πολύ σημαντική”, λέει ο Tianyu Pang, ερευνητής από την ερευνητική ομάδα C AI που βασίζεται στη Σιγκαπούρη. Αυτό βοηθά στην προώθηση των νεοσύστατων επιχειρήσεων που θέλουν να αποφύγουν τις ικανότητες των μοντέλων τους “, που εμπνέει κάποιες νεοσύστατες επιχειρήσεις να επιτύχουν ή να χειραγωγούν το σημείο αναφοράς”, λένε.
Για να ελέγξει εάν ήταν δυνατή η χειραγώγηση στην κατάταξη, ο Pang και οι συνάδελφοί του είδαν την πλατφόρμα Crowdsource AI, αναπτύχθηκε από ερευνητές στο Πανεπιστήμιο της Καλιφόρνια και στο Πανεπιστήμιο της Lamrena. Στο chatbot Arena, ο χρήστης μπορεί να δώσει την προτεραιότητά του για μια έξοδο chatbot για μια έξοδο chatbot όταν εισάγεται μέσω της μπαταρίας των δοκιμών. Τα αποτελέσματα αυτών των ψήφων τροφοδοτούν μια ευρύτερη κατάταξη που μοιράζονται οι πλατφόρμες δημόσια και οι οποίες συχνά θεωρούνται βέβαιοι.
Αλλά ο Pang και οι συνάδελφοί του εντόπισαν ότι είναι δυνατόν να αυξηθεί η θέση κατάταξης του μοντέλου με μόνο μερικές εκατοντάδες ψήφους. “Χρειάζεται μόνο να πάρουμε εκατοντάδες νέες ψήφους για να βελτιώσουμε τη θέση μιας κατάταξης”, λένε. “Η τεχνική είναι πολύ απλή.”
Ενώ το Chatboat Arena διατηρεί μυστικό την ταυτότητα των μοντέλων της, όταν στέκονται ο ένας εναντίον του άλλου, ο Pang και οι συνάδελφοί τους εκπαιδεύτηκαν για να εκπαιδεύσουν έναν ταξινομητή, για να προσδιορίσουν ποιο μοντέλο χρησιμοποιείται για το μοντέλο της παραγωγής του να βασίζεται, με υψηλό επίπεδο ακρίβειας . “Στη συνέχεια, μπορούμε να χρησιμοποιήσουμε το σύστημα αξιολόγησης για να βελτιώσουμε την κατάταξη του μοντέλου πιο αποτελεσματικά με τις ελάχιστες νέες ψήφους”, εξηγούν.
Το πείραμα-δακτυλιοειδές πείραμα δεν δοκιμάστηκε στην ζωντανή έκδοση του chatbot Arena, έτσι ώστε τα αποτελέσματα του πραγματικού ιστότοπου να μην είναι δηλητηριασμένα, αλλά στα ιστορικά δεδομένα από την πλατφόρμα κατάταξης. Παρ ‘όλα αυτά, ο Pang λέει ότι θα είναι δυνατόν να γίνει στην πραγματική ζωή με την κατάλληλη έκδοση του Arena Chatboot.
Η ομάδα πίσω από την πλατφόρμα κατάταξης δεν απάντησε Γρήγορη εταιρείαΑίτημα για σχόλια. Η Pang δηλώνει ότι η τελική του επαφή με το Chatboot Arena ήρθε τον Σεπτέμβριο του 2024 (πριν από τη χρήση), όταν σημείωσε την πιθανή τεχνολογία για να χειριστεί τα αποτελέσματα. Σύμφωνα με τον Pang, η ομάδα Chatbot Arena απάντησε συνιστώντας το Sandbox, οι ερευνητές που δοκιμάζουν την αρχή των ιστορικών μορφών. Ο Pang λέει ότι υπάρχουν πολλοί μηχανισμοί κατά της chatting για να αποφευχθούν οι πλημμύρες στην αρένα chatbot, αλλά δεν μειώνουν την τεχνολογία της ομάδας τους.
“Από τον χρήστη, για τώρα, δεν μπορούμε να διασφαλίσουμε ότι η κατάταξη είναι αξιόπιστη”, λέει ο Pang. “Είναι ευθύνη της ομάδας Chatbot Arena να εφαρμόσει ορισμένους μηχανισμούς κατά της εξαπάτησης για να εξασφαλιστεί ότι το σημείο αναφοράς είναι το πραγματικό επίπεδο”.