Οι επιστήμονες υπολογιστών του Johns Hopkins δημιούργησαν ένα σύστημα τεχνητής νοημοσύνης ικανό να «φαντάζεται» το περιβάλλον του χωρίς να χρειάζεται να το εξερευνήσει σωματικά, φέρνοντας την τεχνητή νοημοσύνη πιο κοντά στην ανθρώπινη λογική.
Το νέο σύστημα — που ονομάζεται Generative World Explorerή GenEx—χρειάζεται μόνο μια ακίνητη εικόνα για να δημιουργήσει έναν ολόκληρο κόσμο, δίνοντάς του ένα σημαντικό πλεονέκτημα σε σχέση με τα προηγούμενα συστήματα που απαιτούσαν από ένα ρομπότ ή έναν πράκτορα να κινηθεί φυσικά μέσα από μια σκηνή για να χαρτογραφήσει το περιβάλλον περιβάλλον, το οποίο μπορεί να είναι δαπανηρό, μη ασφαλές και χρονοβόρα. Ο τα αποτελέσματα της ομάδας εμφανίζονται στο αρχείο ανοιχτής πρόσβασης arXiv.org.
Βασικά Takeaways
- Αυτή η νέα τεχνολογία επιτρέπει στους χρήστες να εξερευνήσουν έναν τρισδιάστατο κόσμο από μία μόνο εικόνα.
- Αυτή η ικανότητα νοητικής χαρτογράφησης του περιβάλλοντος από περιορισμένα οπτικά δεδομένα είναι ζωτικής σημασίας για πολλές εφαρμογές του πραγματικού κόσμου, συμπεριλαμβανομένων σεναρίων όπως η απόκριση σε καταστροφές.
- Για παράδειγμα, οι ομάδες διάσωσης θα μπορούσαν να χρησιμοποιήσουν μια ενιαία εικόνα επιτήρησης για να βοηθήσουν στην εξερεύνηση επικίνδυνων τοποθεσιών από μακριά χωρίς κίνδυνο για ανθρώπους ή πολύτιμο εξοπλισμό.
“Ας πούμε ότι βρίσκεστε σε μια περιοχή που δεν έχετε ξαναπάει – ως άνθρωπος, χρησιμοποιείτε περιβαλλοντικά στοιχεία, προηγούμενες εμπειρίες και τις γνώσεις σας για τον κόσμο για να φανταστείτε τι μπορεί να είναι στη γωνία”, λέει ο ανώτερος συγγραφέας Ο Άλαν στον Γιούιο Διακεκριμένος Καθηγητής Υπολογιστικής Γνωσιακής Επιστήμης του Bloomberg στο Johns Hopkins. «Η GenEx «φαντάζεται» και εξηγεί το περιβάλλον της με τον τρόπο που κάνουν οι άνθρωποι, λαμβάνοντας μορφωμένες αποφάσεις σχετικά με τα βήματα που πρέπει να λάβει στη συνέχεια χωρίς να χρειάζεται πρώτα να ελέγξει φυσικά το περιβάλλον της».
Το GenEx χρησιμοποιεί εξελιγμένη παγκόσμια γνώση για να δημιουργήσει πολλαπλές δυνατότητες για το τι μπορεί να υπάρχει πέρα από την ορατή εικόνα, αναθέτοντας διαφορετικές πιθανότητες σε κάθε σενάριο αντί να κάνει μια ενιαία οριστική εικασία. Αυτή η ικανότητα νοητικής χαρτογράφησης του περιβάλλοντος από περιορισμένα οπτικά δεδομένα είναι ζωτικής σημασίας για πολλές εφαρμογές του πραγματικού κόσμου, συμπεριλαμβανομένων σεναρίων όπως η απόκριση σε καταστροφές. Για παράδειγμα, οι ομάδες διάσωσης θα μπορούσαν να χρησιμοποιήσουν μια ενιαία εικόνα επιτήρησης για να βοηθήσουν στην εξερεύνηση επικίνδυνων τοποθεσιών από μακριά χωρίς κίνδυνο για ανθρώπους ή πολύτιμο εξοπλισμό.
“Αυτή η τεχνολογία μπορεί επίσης να βελτιώσει τις εφαρμογές πλοήγησης, να βοηθήσει στην εκπαίδευση αυτόνομων ρομπότ και να ενισχύσει τις εμπειρίες παιχνιδιών και VR που καθηλώνουν”, λέει ο επικεφαλής συγγραφέας Jieneng Chenφοιτήτρια διδάκτορα στην επιστήμη των υπολογιστών.
Από μία μόνο εικόνα, το GenEx δημιουργεί έναν ρεαλιστικό, συνθετικό εικονικό κόσμο όπου οι πράκτορες τεχνητής νοημοσύνης μπορούν να πλοηγηθούν και να λάβουν αποφάσεις μέσω συλλογισμών και σχεδιασμού. Ο πράκτορας χρειάζεται μόνο μια άποψη της τρέχουσας σκηνής του, μια κατεύθυνση κίνησης και την απόσταση που πρέπει να διασχίσει. Όπως αποδεικνύεται στην παρακάτω κινούμενη εικόνα, ο πράκτορας μπορεί να προχωρήσει μπροστά, να αλλάξει κατεύθυνση και να εξερευνήσει το περιβάλλον του με απεριόριστη ευελιξία.
Και σε αντίθεση με τις ονειρικές εφαρμογές εξερεύνησης κόσμου της τεχνητής νοημοσύνης που κερδίζουν τώρα δημοτικότητα—όπως π.χ Οασηένας προσομοιωτής Minecraft που δημιουργήθηκε από AI—τα περιβάλλοντα του GenEx είναι συνεπή. Αυτό οφείλεται στο γεγονός ότι το μοντέλο εκπαιδεύτηκε σε δεδομένα μεγάλης κλίμακας με μια τεχνική που ονομάζεται «μάθηση σφαιρικής συνέπειας», η οποία διασφαλίζει ότι οι προβλέψεις του για νέα περιβάλλοντα ταιριάζουν σε μια πανοραμική σφαίρα.
“Το μετράμε αυτό βάζοντας το GenEx να περιηγηθεί σε μια τυχαία δειγματοληπτική κλειστή διαδρομή, επιστρέφοντας στην αρχή σε ένα σταθερό βρόχο”, λέει ο Chen. «Στόχος μας ήταν να κάνουμε τις όψεις έναρξης και λήξης πανομοιότυπες, διασφαλίζοντας έτσι τη συνέπεια στη μοντελοποίηση του κόσμου της GenEx».
Αν και αυτή η συνέπεια δεν είναι μοναδική για το GenEx, η ερευνητική ομάδα λέει ότι είναι ο πρώτος και μοναδικός γενεσιουργός εξερευνητής κόσμου που εξουσιοδοτεί πράκτορες τεχνητής νοημοσύνης να λαμβάνουν λογικές αποφάσεις με βάση νέες παρατηρήσεις για τον κόσμο που εξερευνούν σε μια διαδικασία που οι επιστήμονες υπολογιστών αποκαλούν ” πολιτική επαυξημένης φαντασίας».
Για παράδειγμα, πείτε ότι οδηγείτε και το φως μπροστά είναι πράσινο, αλλά παρατηρείτε ότι το ταξί μπροστά σας έχει σταματήσει απότομα, απροσδόκητα. Το να βγείτε από το αυτοκίνητό σας για έρευνα θα ήταν επικίνδυνο, αλλά φανταζόμενοι τη σκηνή από την οπτική γωνία του οδηγού ταξί, μπορείτε να βρείτε έναν πιθανό λόγο για την ξαφνική στάση τους: ίσως πλησιάζει ένα όχημα έκτακτης ανάγκης — και θα πρέπει επίσης να ανοίξετε δρόμο.
«Ενώ οι άνθρωποι μπορούν να χρησιμοποιήσουν άλλες ενδείξεις όπως σειρήνες για να εντοπίσουν αυτού του είδους την κατάσταση, τα τρέχοντα μοντέλα AI που έχουν αναπτυχθεί για αυτόνομη οδήγηση και άλλες παρόμοιες εργασίες έχουν πρόσβαση μόνο σε εισαγωγές εικόνας και γλώσσας, καθιστώντας την ευφάνταστη εξερεύνηση απαραίτητη απουσία άλλων πολυτροπικών πληροφοριών», δήλωσε ο Chen. λέει.
Η ομάδα του Hopkins αξιολόγησε τη συνέπεια και την ποιότητα της παραγωγής του GenEx σε σχέση με τα τυπικά σημεία αναφοράς παραγωγής βίντεο. Οι ερευνητές διεξήγαγαν επίσης πειράματα με ανθρώπους για να προσδιορίσουν εάν και πώς το GenEx θα μπορούσε να αυξήσει τις ικανότητες λογικής και σχεδιασμού τους και διαπίστωσαν ότι οι χρήστες έπαιρναν πιο ακριβείς και ενημερωμένες αποφάσεις όταν είχαν πρόσβαση στις δυνατότητες εξερεύνησης του μοντέλου.
“Τα πειραματικά μας αποτελέσματα δείχνουν ότι το GenEx μπορεί να δημιουργήσει υψηλής ποιότητας, συνεπείς παρατηρήσεις κατά τη διάρκεια μιας εκτεταμένης εξερεύνησης ενός μεγάλου εικονικού φυσικού κόσμου”, λέει ο Chen. “Επιπλέον, οι πεποιθήσεις που ενημερώνονται με τις παραγόμενες παρατηρήσεις μπορούν να ενημερώσουν ένα υπάρχον μοντέλο λήψης αποφάσεων, όπως έναν πράκτορα μεγάλου γλωσσικού μοντέλου, ακόμη και ανθρώπους χρήστες για να κάνουν καλύτερα σχέδια.”
Έγινε μέλος Τιανμίν Σου και Ντάνιελ Κασάμπι—και επίκουροι καθηγητές πληροφορικής—και προπτυχιακός φοιτητής TaiMingLuYuille και Chen θα ενσωματώσουν δεδομένα αισθητήρων πραγματικού κόσμου και δυναμικές σκηνές για πιο ρεαλιστικά, καθηλωτικά σενάρια σχεδιασμού. Bloomberg Διακεκριμένος Καθηγητής Όρασης Υπολογιστών και Τεχνητής Νοημοσύνης Rama Chellappa και Τσενγκ Πενγκεπίκουρος καθηγητής ερευνητής στο Μαθηματικό Ινστιτούτο Επιστήμης Δεδομένωνθα βοηθήσει στην επιμέλεια των δεδομένων αισθητήρων του πραγματικού κόσμου.
Το διεπιστημονικό έργο, το οποίο περιλαμβάνει όραση υπολογιστή, επεξεργασία φυσικής γλώσσας και γνωστική επιστήμη, σηματοδοτεί ένα σημαντικό επίτευγμα για την επίτευξη ανθρώπινης νοημοσύνης στην ενσωματωμένη τεχνητή νοημοσύνη, λέει ο Yuille.
Μάθετε περισσότερα για τη δουλειά τους και εξερευνήστε μια διαδραστική επίδειξη εδώ.
https://hub.jhu.edu/2024/12/19/a-generated-world-of-pure-imagination/?rand=738