Για να κατανοήσουμε τα πλεονεκτήματα και τους περιορισμούς της, ίσως χρειαστεί να υιοθετήσουμε μια νέα οπτική γωνία.
Από τον Jaron Lanier
Η τεχνολογία από μόνη της δεν είναι ποτέ αρκετή. Για να είναι χρήσιμη, πρέπει να συνοδεύεται και από άλλα στοιχεία, όπως η κατανόηση από το λαό, οι καλές συνήθειες και η αποδοχή της κοινής ευθύνης για τις συνέπειές της. Χωρίς αυτό το είδος κοινωνικού φωτοστέφανου, οι τεχνολογίες τείνουν να χρησιμοποιούνται αναποτελεσματικά ή ελλιπώς. Ένα καλό παράδειγμα αυτού θα μπορούσε να είναι τα εμβόλια mRNA που δημιουργήθηκαν κατά τη διάρκεια της επιδημίας covid. Ήταν ένα καταπληκτικό ιατρικό επίτευγμα – κι όμως, λόγω της ευρείας έλλειψης κατανόησης, δεν είχαν την ίδια ανταπόκριση όπως θα μπορούσαν.
Ίσως να μην είναι καν σωστό να αποκαλούμε μια τεχνολογία, τεχνολογία, ελλείψει των στοιχείων που απαιτούνται για να τη χρησιμοποιήσουμε στον ανθρώπινο κόσμο. Αν δεν μπορούμε να καταλάβουμε πώς λειτουργεί μια τεχνολογία, κινδυνεύουμε να υποκύψουμε στη “μαγική” σκέψη.
Ένας άλλος τρόπος να το πούμε αυτό είναι ότι χρειαζόμαστε καρτούν στο μυαλό μας για το πώς λειτουργούν οι τεχνολογίες. Δεν γνωρίζω αρκετά για τα εμβόλια ώστε να φτιάξω ένα για τον εαυτό μου, αλλά έχω ένα καρτούν για τα εμβόλια και μου δίνει μια κατά προσέγγιση κατανόηση- είναι αρκετά καλό για να με βοηθήσει να παρακολουθώ τις ειδήσεις για τα εμβόλια και να κατανοήσω τη διαδικασία ανάπτυξης, τους κινδύνους και το πιθανό μέλλον της τεχνολογίας. Έχω παρόμοιες εικόνες στο μυαλό μου για τους πυραύλους, τη χρηματοπιστωτική ρύθμιση και την πυρηνική ενέργεια. Moυ δίνουν μια αρκετά καλή αίσθηση, αν και δεν είναι τέλειες. Ακόμα και οι ειδικοί χρησιμοποιούν καρτούν για να μιλήσουν μεταξύ τους: μερικές φορές μια απλουστευμένη άποψη των πραγμάτων, τους βοηθά να βλέπουν το δέντρο και να χάνουν το δάσος.
Ως προς αυτό το σημείο, αντιμετωπίζω κάποια ένταση με πολλούς μεταξύ των επιστημόνων πληροφορικής. Πιστεύω ότι τα καρτούν που έχουμε μεταδώσει για την Τεχνητή Νοημοσύνη είναι αντιπαραγωγικά. Φέραμε την Τεχνητή Νοημοσύνη στον κόσμο συνοδευόμενη από ιδέες οι οποίες δεν βοηθούν και προκαλούν σύγχυση. Το χειρότερο είναι ίσως η αίσθηση της ανθρώπινης απαξίωσης και καταδίκης που πολλοί από εμάς μεταδίδουν. Δυσκολεύομαι να καταλάβω γιατί κάποιοι συνάδελφοί μου λένε ότι αυτό που κάνουν μπορεί να οδηγήσει στην εξαφάνιση του ανθρώπου, και όμως υποστηρίζουν ότι αξίζει ακόμα να το κάνουμε. Είναι δύσκολο να κατανοήσουμε αυτόν τον τρόπο ομιλίας χωρίς να αναρωτηθούμε αν η Τεχνητή Νοημοσύνη μετατρέπεται σε ένα νέο είδος θρησκείας.
Εκτός από την ατμόσφαιρα Αποκάλυψης, δεν κάνουμε καλή δουλειά στο να εξηγήσουμε τι είναι αυτά τα πράγματα και πώς λειτουργούν. Οι περισσότεροι μη εξειδικευμένοι άνθρωποι μπορούν να κατανοήσουν μια ακανθώδη αφαίρεση καλύτερα όταν αυτή έχει σπάσει σε συγκεκριμένα κομμάτια για τα οποία μπορούν να αφηγηθούν ιστορίες, αλλά αυτό μπορεί να είναι δύσκολο να γίνει στον κόσμο της επιστήμης των υπολογιστών. Συνήθως προτιμούμε να αντιμετωπίζουμε τα συστήματα Τεχνητής Νοημοσύνης ως γιγαντιαίες αδιαπέραστες συνέχειες. Ίσως, σε κάποιο βαθμό, να υπάρχει μια αντίσταση στην απομυθοποίηση αυτού που κάνουμε επειδή θέλουμε να το προσεγγίσουμε μυστικιστικά. Η συνήθης ορολογία, ξεκινώντας από την ίδια τη φράση “Tεχνητή Nοημοσύνη”, έχει να κάνει με την ιδέα ότι φτιάχνουμε νέα πλάσματα αντί για νέα εργαλεία. Αυτή η αντίληψη ενισχύεται από βιολογικούς όρους όπως “νευρώνες” και “νευρωνικά δίκτυα” και από ανθρωπομορφικούς όρους όπως “μάθηση” ή “εκπαίδευση”, τους οποίους χρησιμοποιούν συνεχώς οι επιστήμονες πληροφορικής. Είναι επίσης πρόβλημα ότι η “Tεχνητή Nοημοσύνη” δεν έχει σταθερό ορισμό. Είναι πάντα δυνατό να απορρίψουμε οποιοδήποτε συγκεκριμένο σχόλιο για αυτήν, επειδή δεν αναφέρεται σε κάποιον άλλο πιθανό ορισμό της. Η έλλειψη πρόσδεσης του όρου, συμπίπτει με μια μεταφυσική ευαισθησία σύμφωνα με την οποία το ανθρώπινο πλαίσιο θα ξεπεραστεί σύντομα.
Υπάρχει ένας τρόπος να εξηγήσουμε την Τεχνητή Νοημοσύνη που να μην είναι με όρους οι οποίοι να υποδηλώνουν την απαξίωση ή την αντικατάσταση του ανθρώπου; Αν μπορέσουμε να μιλήσουμε για την τεχνολογία μας με διαφορετικό τρόπο, ίσως εμφανιστεί ένας καλύτερος δρόμος για την ενσωμάτωσή της στην κοινωνία. Στο “There Is No A.I.”, ένα προηγούμενο δοκίμιο που έγραψα για αυτό το περιοδικό, συζήτησα την επανεξέταση των μεγάλων μοντέλων Τεχνητής Νοημοσύνης ως μια μορφή ανθρώπινης συνεργασίας και όχι ως ένα νέο πλάσμα στη σκηνή. Στο άρθρο αυτό, ελπίζω να εξηγήσω πώς λειτουργεί μια τέτοια τεχνητή νοημοσύνη με τρόπο που να υπερισχύει των συχνά μυστηριωδών τεχνικών λεπτομερειών και να δίνει έμφαση στο πώς η τεχνολογία τροποποιεί -και εξαρτάται από την ανθρώπινη συμβολή-.
Δεν πρόκειται για ένα εισαγωγικό μάθημα στην επιστήμη των υπολογιστών, αλλά για μια ιστορία για χαριτωμένα αντικείμενα στο χώρο και το χρόνο που χρησιμεύουν ως μεταφορικά παραδείγματα για το πώς έχουμε μάθει να χειριζόμαστε τις πληροφορίες με νέους τρόπους. Θεωρώ ότι οι περισσότεροι άνθρωποι δεν μπορούν να παρακολουθήσουν τις συνήθεις ιστορίες για το πώς λειτουργεί η Τεχνητή Νοημοσύνη τόσο καλά όσο μπορούν να παρακολουθήσουν ιστορίες για άλλες τεχνολογίες. Ελπίζω ότι η εναλλακτική λύση που παρουσιάζω εδώ θα είναι χρήσιμη.
Μπορούμε να σχεδιάσουμε το ανθρωποκεντρικό μας σκίτσο για μεγάλο μοντέλο Tεχνητής Nοημοσύνης σε τέσσερα βήματα. Κάθε βήμα είναι απλό. Αλλά θα αθροίσουν σε κάτι που θα είναι εύκολο να φανταστεί κανείς – και να το χρησιμοποιήσει ως εργαλείο σκέψης.
1. Δέντρα
Το πρώτο βήμα, και κατά κάποιο τρόπο το απλούστερο, ίσως είναι και το πιο δύσκολο να εξηγηθεί. Μπορούμε να ξεκινήσουμε με μια ερώτηση: Πώς μπορείτε να χρησιμοποιήσετε έναν υπολογιστή για να διαπιστώσετε αν μια φωτογραφία δείχνει μια γάτα ή έναν σκύλο; Το πρόβλημα είναι ότι οι γάτες και οι σκύλοι μοιάζουν σε γενικές γραμμές. Και οι δύο έχουν μάτια και μουσούδες, ουρές και πόδια, τέσσερα πόδια και τρίχωμα. Είναι εύκολο για έναν υπολογιστή να πάρει μετρήσεις μιας εικόνας – για να καθορίσει αν είναι ανοιχτόχρωμη ή σκοτεινή, ή πιο μπλε ή κόκκινη. Αλλά αυτού του είδους οι μετρήσεις δεν θα ξεχωρίσουν μια γάτα από έναν σκύλο. Μπορούμε να θέσουμε το ίδιο είδος ερώτησης για άλλα παραδείγματα. Για παράδειγμα, πώς μπορεί ένα πρόγραμμα να αναλύσει αν ένα απόσπασμα είναι πιθανό να έχει γραφτεί από τον Ουίλιαμ Σαίξπηρ;
Σε τεχνικό επίπεδο, η βασική απάντηση είναι ένα κολλημένο κουβάρι στατιστικών στοιχείων που ονομάζουμε νευρωνικό δίκτυο. Αλλά το πρώτο πράγμα που πρέπει να κατανοήσουμε σχετικά με την απάντηση αυτή, είναι ότι έχουμε να κάνουμε με μια τεχνολογία πολυπλοκότητας. Το νευρωνικό δίκτυο, το πιο βασικό σημείο εισόδου στην τεχνητή νοημοσύνη, είναι σαν μια λαϊκή τεχνολογία. Όταν οι ερευνητές λένε ότι μια Τεχνητή Νοημοσύνη έχει “αναδυόμενες ιδιότητες” -και το λέμε συχνά αυτό- είναι ένας άλλος τρόπος να πούμε ότι δεν ξέραμε τι θα έκανε το δίκτυο μέχρι να προσπαθήσουμε να το κατασκευάσουμε. Η Τεχνητή Νοημοσύνη δεν είναι ο μόνος τομέας που είναι έτσι- η ιατρική και η οικονομία είναι παρόμοιες. Σε αυτά τα πεδία, δοκιμάζουμε πράγματα, ξαναπροσπαθούμε και βρίσκουμε τεχνικές που λειτουργούν καλύτερα. Δεν ξεκινάμε με μια κύρια θεωρία και στη συνέχεια τη χρησιμοποιούμε για να υπολογίσουμε ένα ιδανικό αποτέλεσμα. Παρόλα αυτά, μπορούμε να δουλέψουμε με την πολυπλοκότητα, ακόμη και αν δεν μπορούμε να την προβλέψουμε τέλεια.
Ας προσπαθήσουμε να σκεφτούμε, με έναν ευφάνταστο τρόπο, να διακρίνουμε μια εικόνα μιας γάτας από μια εικόνα ενός σκύλου. Οι ψηφιακές εικόνες είναι φτιαγμένες από pixel, και πρέπει να κάνουμε κάτι για να ξεπεράσουμε απλώς μια λίστα από αυτά. Μια προσέγγιση είναι να τοποθετήσουμε ένα πλέγμα πάνω στην εικόνα που μετράει κάτι λίγο περισσότερο από το απλό χρώμα. Για παράδειγμα, θα μπορούσαμε να ξεκινήσουμε με τη μέτρηση του βαθμού στον οποίο τα χρώματα αλλάζουν σε κάθε τετράγωνο του πλέγματος – τώρα έχουμε έναν αριθμό σε κάθε τετράγωνο που μπορεί να αντιπροσωπεύει την ανάδειξη των αιχμηρών άκρων στο συγκεκριμένο τμήμα της εικόνας. Ένα μόνο στρώμα τέτοιων μετρήσεων εξακολουθεί να μην μπορεί να διακρίνει τις γάτες από τους σκύλους. Μπορούμε όμως να τοποθετήσουμε ένα δεύτερο πλέγμα πάνω από το πρώτο, μετρώντας κάτι σχετικά με το πρώτο πλέγμα, και στη συνέχεια ένα άλλο, και ένα άλλο. Μπορούμε να χτίσουμε έναν πύργο από στρώματα, με το κατώτερο να μετράει τμήματα της εικόνας και κάθε επόμενο στρώμα να μετράει το στρώμα που βρίσκεται από κάτω. Αυτή η βασική ιδέα υπάρχει εδώ και μισό αιώνα, αλλά μόλις πρόσφατα βρήκαμε τις κατάλληλες βελτιώσεις για να λειτουργήσει καλά. Κανείς δεν γνωρίζει πραγματικά αν υπάρχει ακόμη καλύτερος τρόπος.
Ας κάνουμε το καρτούν μας σχεδόν σαν εικονογράφηση σε παιδικό βιβλίο. Μπορείτε να φανταστείτε μια ψηλή δομή από αυτά τα πλέγματα ως έναν μεγάλο κορμό δέντρου που αναπτύσσεται από την εικόνα. (Ο κορμός είναι πιθανώς ορθογώνιος αντί για στρογγυλός, αφού οι περισσότερες εικόνες είναι ορθογώνιες). Μέσα στο δέντρο, κάθε μικρό τετράγωνο σε κάθε πλέγμα φέρει έναν αριθμό. Φανταστείτε τον εαυτό σας να σκαρφαλώνει στο δέντρο και να κοιτάζει μέσα με μια ακτινογραφία καθώς ανεβαίνετε: οι αριθμοί που θα συναντήσετε στα υψηλότερα σημεία εξαρτώνται από τους αριθμούς που βρίσκονται χαμηλότερα.
Δυστυχώς, αυτό που έχουμε μέχρι στιγμής εξακολουθεί να μην είναι σε θέση να ξεχωρίσει τις γάτες από τους σκύλους. Αλλά τώρα μπορούμε να αρχίσουμε να “εκπαιδεύουμε” το δέντρο μας (όπως γνωρίζετε, δεν μου αρέσει ο ανθρωπομορφικός όρος “εκπαίδευση”, αλλά θα τον αφήσουμε). Φανταστείτε ότι ο πάτος του δέντρου μας είναι επίπεδος και ότι μπορείτε να σύρετε φωτογραφίες από κάτω του. Τώρα πάρτε μια συλλογή από εικόνες γάτας και σκύλου που έχουν σαφή και σωστή ετικέτα “γάτα” και “σκύλος” και σύρετέ τις, μία προς μία, κάτω από το χαμηλότερο στρώμα του. Οι μετρήσεις θα ανεβαίνουν κλιμακωτά προς το ανώτερο στρώμα του δέντρου – το στρώμα του θόλου, αν θέλετε, το οποίο μπορεί να το βλέπουν άνθρωποι σε ελικόπτερα. Στην αρχή, τα αποτελέσματα που εμφανίζονται από το θόλο δεν θα είναι συνεκτικά. Αλλά μπορούμε να βουτήξουμε στο δέντρο -με ένα μαγικό λέιζερ, ας πούμε- για να προσαρμόσουμε τους αριθμούς στα διάφορα στρώματά του ώστε να έχουμε ένα καλύτερο αποτέλεσμα. Μπορούμε να ενισχύσουμε τους αριθμούς που αποδεικνύονται πιο χρήσιμοι στη διάκριση των γατών από τους σκύλους.
Η διαδικασία δεν είναι απλή, καθώς η αλλαγή ενός αριθμού σε ένα στρώμα μπορεί να προκαλέσει κυματισμό αλλαγών σε άλλα στρώματα. Τελικά, αν τα καταφέρουμε, οι αριθμοί στα φύλλα του θόλου θα είναι όλοι μονάδες όταν υπάρχει ένας σκύλος στη φωτογραφία, και θα είναι όλοι δυάδες όταν υπάρχει μια γάτα.
Τώρα, με εκπληκτικό τρόπο, έχουμε δημιουργήσει ένα εργαλείο -ένα εκπαιδευμένο δέντρο- που διακρίνει τις γάτες από τους σκύλους. Οι επιστήμονες της πληροφορικής αποκαλούν τα στοιχεία του πλέγματος που βρίσκονται σε κάθε επίπεδο “νευρώνες”, προκειμένου να υποδηλώσουν μια σύνδεση με τους βιολογικούς εγκεφάλους, αλλά η ομοιότητα είναι περιορισμένη. Ενώ οι βιολογικοί νευρώνες είναι μερικές φορές οργανωμένοι σε “στρώματα”, όπως στο φλοιό, δεν είναι πάντα- στην πραγματικότητα, υπάρχουν λιγότερα στρώματα στο φλοιό απ’ ό,τι σε ένα τεχνητό νευρωνικό δίκτυο. Με την Τεχνητή Νοημοσύνη, ωστόσο, αποδείχθηκε ότι η προσθήκη πολλών στρωμάτων βελτιώνει κατά πολύ την απόδοση, γι’ αυτό και βλέπετε τόσο συχνά τον όρο “βαθιά”, όπως στο “deep learning” – σημαίνει πολλά στρώματα.
Είναι αδύνατο να βρεθεί μια τέλεια μεταφορά. Γράφοντας αυτό το άρθρο, έπαιξα με πύργους και άλλα ψηλά πράγματα αντί για δέντρα – αλλά η οργανική και οικεία φύση των δέντρων και ο τρόπος με τον οποίο αναπτύσσονται για να αντανακλούν τα γεγονότα γύρω τους, συνδεόμενα σ’ ένα μεγάλο σύνολο μέσω του μυκηλίου, επικοινωνεί καλά με πολλούς μη τεχνικούς ανθρώπους. Υπάρχει μια ασάφεια σε αυτή τη μεταφορική εικόνα, επειδή ο όρος “δέντρο” είναι επίσης ένας από τους πιο συνηθισμένους όρους στην επιστήμη των υπολογιστών, που αναφέρεται σε μια διακλαδιζόμενη αφηρημένη δομή. Αυτά τα δέντρα δεν είναι αυτά τα δέντρα.
Πώς εκπαιδεύονται τα δέντρα μας; Η βασική τεχνική της εκπαίδευσης βασίζεται σ’ ένα τέχνασμα που ονομάζεται “κάθοδος κλίσης”, το οποίο χρονολογείται τουλάχιστον από το 1847, όταν ο μαθηματικός Augustin-Louis Cauchy το περιέγραψε. Η βασική ιδέα είναι να κάνουμε μια σειρά από ολοένα και καλύτερες εικασίες σχετικά με το ποιοι αριθμοί, σε ποια επίπεδα του δέντρου, θα πρέπει να αποκτήσουν μεγαλύτερη επιρροή. Η πρόκληση είναι ότι, μόλις ένας αριθμός αρχίσει να επιβεβαιώνεται, κινδυνεύει να γίνει υπερβολικά σημαντικός, εις βάρος άλλων ευεργετικών αριθμών. Η μέθοδος που λειτουργεί απαιτεί ισορροπία προκειμένου να βρεθεί ένας τυχαίος αλλά απρόβλεπτος συνδυασμός αριθμών που αξίζουν μεγαλύτερη προβολή.
Η επίτευξη αυτής της σωστής ισορροπίας περιλαμβάνει αυτό που μπορεί να θεωρηθεί ως αντιστάθμιση για την αποφυγή των γνωστών φαινομένων virality, κατά τα οποία κάτι γίνεται όλο και πιο διάσημο ή πολύτιμο – σε ακραίο βαθμό – απλώς και μόνο επειδή άρχισε να είναι έτσι την κατάλληλη στιγμή. Πρόκειται για μια ενδιαφέρουσα σύμπτωση, επειδή ο ευρύτερος ανθρώπινος κόσμος μετασχηματίζεται από την virality, και όχι με καλό τρόπο. Το αναφέρω αυτό με την ελπίδα να κεντρίσω το ενδιαφέρον κάποιων συναδέλφων μου στην τεχνολογική βιομηχανία. Χρησιμοποιούμε αλγορίθμους Τεχνητής Νοημοσύνης για να κατευθύνουμε τις ροές των μέσων κοινωνικής δικτύωσης προς και μεταξύ των ανθρώπων, να διαχειριζόμαστε τα οικονομικά και πολλά άλλα. Σ’ όλες αυτές τις περιπτώσεις, το virality έχει γίνει αναμενόμενο. Αλλά, στο πλαίσιο της Τεχνητής Νοημοσύνης, πρέπει να κάνουμε κάτι σαν καταστολή του virality για να λειτουργήσει. Δεν θα έπρεπε να σκεφτούμε να κάνουμε κάτι παρόμοιο όταν πρόκειται για την ανάπτυξη της Τεχνητής Νοημοσύνης; Αυτό δεν θα έκανε την κουλτούρα, την πολιτική και την οικονομία λιγότερο τρελές;
2. Το μαγικό δάσος
Τις γάτες και τους σκύλους είναι εύκολο να τα φανταστεί κανείς, αλλά οι ίδιες αρχές ισχύουν για το κείμενο, τον κώδικα του υπολογιστή, τη μουσική, τις ταινίες και οτιδήποτε άλλο. Θεωρητικά, μπορούμε να πάρουμε ολόκληρο το Διαδίκτυο και κάθε άλλο δεδομένο που μπορούμε να πάρουμε στα χέρια μας και να φτιάξουμε δέντρα εκπαιδευμένα να τα χαρακτηρίζουν σωστά. Μπορούμε να φτιάξουμε ένα μαγικό δάσος από τέτοια δέντρα ικανά να αναγνωρίζουν σχεδόν ο,τιδήποτε σε ψηφιακή μορφή.
Ωστόσο, υπάρχει μια παγίδα. Είναι δυνατόν να συγκεντρώσουμε με ακρίβεια χαρακτηρισμένες με ετικέτες φωτογραφίες γατών, σκύλων και πολλών άλλων. Αλλά οι περισσότερες πληροφορίες που παράγει η ανθρωπότητα δεν έχουν επισημανθεί τόσο καθαρά και με συνέπεια, και ίσως δεν μπορούν να επισημανθούν. Αυτό που χρειαζόμαστε είναι μια προσέγγιση που να προσεγγίζει ένα σύστημα σχεδόν καθολικών ετικετών. Η ιδιότητα που γνωρίζουμε και μας επιτρέπει να το κάνουμε αυτό, είναι η εγγύτητα. Ας υποθέσουμε ότι, στο Διαδίκτυο, μια συγκεκριμένη ακολουθία κειμένου τείνει να βρίσκεται κοντά σ’ ένα συγκεκριμένο είδος εικόνας. Αυτό υποδηλώνει ότι το κείμενο και η εικόνα σχετίζονται μεταξύ τους.
Πώς θα φαινόταν αν χρησιμοποιούσαμε την εγγύτητα για να εκτιμήσουμε τον τρόπο με τον οποίο τα πάντα στο διαδίκτυο συνδέονται με όλα τα άλλα; Με άλλα λόγια, τι θα γινόταν αν χρησιμοποιούσαμε την εγγύτητα ως υποκατάστατο της semantics; Θα μπορούσατε να φανταστείτε μια απέραντη έκταση δέντρων που θα προέκυπτε από αυτό το είδος συσχέτισης, που θα εκτεινόταν στο βάθος, συνδεδεμένη ίσως με συστάδες ή με έναν υπόγειο μυκηλιακό ιστό – ένα μεγάλο δάσος με αμοιβαία ταξινόμηση.
Η λέξη “γάτα” εμφανίζεται συχνά κοντά σε εικόνες αυτού του είδους στο Διαδίκτυο, αλλά τα δέντρα στο εικονικό μας δάσος αποκτούν μια αίσθηση ευρύτερης συσχέτισης. Ένα δέντρο ικανό να αναγνωρίζει μια εικόνα μιας γάτας μπορεί να έχει ρίζες που το συνδέουν με άλλα δέντρα που αναγνωρίζουν αναμνήσεις από memes γάτας ή κρεβάτια γάτας. Μπορεί να συνδέεται με δέντρα για παιχνίδια που λατρεύουν οι γάτες, καθώς και με δέντρα ικανά να αναγνωρίζουν τις ασθένειες και τους ανθρώπινους θαυμαστές τους. Οι ερευνητές προσπαθούν να δημιουργήσουν πιο “πολυτροπικά” μοντέλα Τεχνητής Νοημοσύνης, που σημαίνει ότι εικόνες, κείμενα και ταινίες μπορούν να συσχετίζονται σ’ ένα ενιαίο εργαλείο. Αυτό μετατρέπει την Τεχνητή Νοημοσύνη σ’ ένα είδος σύμπτωσης του τρόπου με τον οποίο η ανθρωπότητα έχει σημειώσει συνδέσεις μεταξύ διαφορετικών πραγμάτων – τουλάχιστον στο βαθμό που αυτά τα πράγματα έχουν μπει στα δεδομένα εκπαίδευσης. Αλλού σ’ ένα τέτοιο δάσος, τα δέντρα θα μπορούσαν να είναι αφιερωμένα στη μουσική reggaetón, ή στον κώδικα που τρέχει ιστοσελίδες για οπαδούς κόμικς, ή σε ακτινολογικές εικόνες όγκων στους πνεύμονες. Ένα αρκετά μεγάλο δάσος μπορεί θεωρητικά να ταξινομήσει σχεδόν ο,τιδήποτε αναπαρίσταται σε ψηφιακή μορφή, δεδομένου ότι υπάρχουν αρκετά παραδείγματα αυτού.
Η καλλιέργεια ενός μεγάλου δάσους είναι ένα τεράστιο εγχείρημα. Χρειάζεται πολύς χρόνος και απαιτούνται εκπληκτικοί πόροι. Όταν ο αριθμός δίπλα σε ένα “GPT” αυξάνεται -από 3 σε 4, ας πούμε- αυτό σηματοδοτεί, μεταξύ άλλων, έναν νέο “κύκλο εκπαίδευσης”, κατά τον οποίο αναπτύσσεται ένα νέο δάσος, ικανό να αναγνωρίζει περισσότερα πράγματα με μεγαλύτερη αξιοπιστία. Πόσο μεγάλα είναι αυτά τα δάση; Ποια πράγματα θα συμπεριληφθούν; Δεν γνωρίζουμε εκ των προτέρων.
Τα δέντρα δεν είναι σαφή- δεν παίρνουμε έναν κατάλογο μ’ αυτά. Είναι σιωπηρά, υπάρχουν σε ένα μεγάλο συνοθύλευμα. Στο καρτούν μας, απλώνονται στο χώρο, επειδή οι άνθρωποι είναι πλάσματα του χρόνου και του χώρου. Σε κάθε περίπτωση, υπάρχουν δισεκατομμύρια επί δισεκατομμυρίων πιθανών δέντρων, αν είστε πρόθυμοι να δείτε δέντρα. Το μέγεθος του συνολικού αποτελέσματος είναι δύσκολο να αποτυπωθεί.
3. Δασικά προϊόντα
Φανταστείτε ότι έχετε ένα δέντρο που αναγνωρίζει γάτα, αλλά δεν έχετε εικόνες γάτας. Στο σημείο αυτό έρχεται η λεγόμενη ” γενετική ” Τεχνητή Νοημοσύνη. Είναι δυνατόν να εργαστείτε αντίστροφα, χρησιμοποιώντας το δέντρο αναγνώρισης γάτας για να δημιουργήσετε μια εικόνα μιας γάτας. Ξεκινήστε μ’ ένα πεδίο τυχαίων pixel – ένα ορθογώνιο από χιόνι. Τώρα περάστε το ορθογώνιο σας κάτω από ένα δέντρο αναγνώρισης γάτας και δείτε αν διακρίνει μια γάτα. Δεν θα το κάνει, επειδή η εικόνα είναι μόνο τυχαία pixel. Αλλά τώρα τυχαιοποιήστε τα τυχαία pixel. Το αποτέλεσμα εξακολουθεί να σας φαίνεται σαν χιόνι, αλλά, στο δέντρο, μπορεί να προκαλέσει μια αμυδρή αναγνώριση. Αν δείτε ότι η αναγνώριση του δέντρου αυξάνεται, κρατήστε το αποτέλεσμα. Αν μειώνεται, πετάξτε την αλλαγή. Τώρα κάντε το αυτό ξανά και ξανά. Μέσα από το χιόνι, τελικά αναδύεται μια γάτα.
(H συνήθης εξήγηση είναι λίγο διαφορετική από αυτήν που δίνεται εδώ, και περιλαμβάνει την επανειλημμένη αφαίρεση και προσθήκη θορύβου στην εικόνα, αλλά αυτός είναι απλώς ένας πιο κουραστικός τρόπος περιγραφής της ίδιας διαδικασίας. Ο λόγος για τον οποίο μιλάω για την απόρριψη εικόνων, παρόλο που στην πραγματικότητα δεν διαγράφουμε αρχεία, είναι ότι πολλοί άνθρωποι μπορούν να ακολουθήσουν την περιγραφή μιας ενέργειας όπως η απόρριψη κάποιου αρχείου καλύτερα από την αφηρημένη ιδέα της προσθήκης και αφαίρεσης θορύβου).
Ποια γάτα έχετε δημιουργήσει; Δεν είναι πραγματική γάτα. Θα είναι μια τυχαία παρεμβολή μερικών από τις γάτες που συνέβαλαν στην εκπαίδευση του δέντρου αναγνώρισης γάτας, πολύ πίσω στην αρχή του ταξιδιού μας. Τα δεδομένα αυτά προήλθαν από εικόνες γάτας που είχαν αναρτηθεί στο διαδίκτυο, αλλά η νέα εικόνα τυπικά δεν είναι ακριβώς κάποια από αυτές. Είναι απλώς μια εικόνα που είναι αναγνωρίσιμη ως γάτα. Εκτελέστε ξανά τη διαδικασία και θα λάβετε μια νέα συνένωση. Εκπαιδεύστε μια τεχνητή νοημοσύνη να παράγει τέτοιες εικόνες -όχι μόνο για γάτες αλλά για πολλά πράγματα- και έχετε μια βασική μορφή γενετικής τεχνητής νοημοσύνης.
4. Δέντρα-φαντάσματα
Είμαστε τώρα έτοιμοι να κατανοήσουμε, μ’ έναν μεταφορικό τρόπο, τι συμβαίνει όταν αλληλεπιδρούμε με συστήματα γενετικής Τεχνητής Νοημοσύνης. Αλληλεπιδρούμε με τέτοια συστήματα χρησιμοποιώντας προτροπές-συνδυασμούς λέξεων που περιγράφουν αυτό που θέλουμε. Οι λέξεις στις προτροπές μας αναγνωρίζονται από τα δέντρα σε όλο το δάσος. Θα μπορούσατε να τα φανταστείτε να φωτίζονται ως απάντηση στις προτροπές μας. Αλλά η ενεργοποίηση των μεμονωμένων δέντρων δεν είναι τόσο σημαντική όσο αυτό που συμβαίνει μεταξύ τους.
Ας υποθέσουμε ότι ζητάτε από ένα γενετικό σύστημα Τεχνητής Νοημοσύνης να παράγει “μια υδατογραφία μιας γάτας με αλεξίπτωτο, που παίζει το μουσικό όργανο τούμπα, και πρόκειται να προσγειωθεί στο Yosemite”. Δεν υπάρχουν μεμονωμένα δέντρα στο δάσος που να ανταποκρίνονται σ’ αυτό το συγκεκριμένο αίτημα, επειδή ποτέ δεν υπήρξαν εικόνες στο Διαδίκτυο που να σχετίζονται με αυτή τη συγκεκριμένη συλλογή λέξεων. Κατά μία έννοια, υπάρχει ένα ανοιχτό λιβάδι ανάμεσα στα δέντρα για τις λέξεις “ακουαρέλα”, “γάτα”, “αλεξίπτωτο”, “τούμπα” και “Yosemite”. Όμως, αντλώντας από τα δέντρα για αυτές τις έννοιες και παράγοντας κάτι που είναι αναγνωρίσιμο σε όλες αυτές, μια Τεχνητή Νοημοσύνη μπορεί να καλύψει το κενό. Μπορεί να φτιάξει ένα δέντρο-φάντασμα στο ξέφωτο – ένα δέντρο που έχει φτιαχτεί κατά παραγγελία ως απάντηση στην προτροπή σας.
“Η υδατογραφία μιας γάτας με αλεξίπτωτο, που παίζει το μουσικό όργανο τούμπα, και πρόκειται να προσγειωθεί στο Yosemite” είναι ένα ενδιαφέρον δέντρο. Το να το επικαλεστείς φαίνεται να απαιτεί κάτι σαν δημιουργικότητα. Πώς ακριβώς χωράει μια γάτα σ’ ένα αλεξίπτωτο; Πώς ακριβώς κρατάει μια τούμπα; Αυτά είναι ερωτήματα χωρίς οριστικές απαντήσεις. Ωστόσο, σχεδιάζοντας όλα τα δέντρα που ενεργοποιούνται από την προτροπή, μια Τεχνητή Νοημοσύνη θα βρει μια λύση. Πρόκειται για μια στατιστική διαδικασία – μια αναζήτηση για έναν τρόπο να είσαι περισσότερα από ένα πράγμα ταυτόχρονα. Μπορείτε να φανταστείτε το πρόγραμμα Τεχνητής Νοημοσύνης να κάνει κύκλο μέσα από όλα τα δέντρα που ταιριάζουν με την προτροπή και να επιλέγει μόνο μια αναδυόμενη εικόνα που ταιριάζει σε όλα αυτά ταυτόχρονα. Στο Διαδίκτυο, οι εικόνες αλεξίπτωτων που χρησιμοποιούνται γενικά δείχνουν ανθρώπους, όχι γάτες. Αλλά το να βάλεις μια γάτα σε μια στάση παρόμοια με αυτή ενός ανθρώπου είναι πιο πιθανό να ικανοποιήσει το δέντρο αλεξίπτωτο σε χρήση. Η διαδικασία καταλήγει σε κάτι αληθοφανές. Το αποτέλεσμά της δεν είναι τέλειο, αλλά συχνά είναι αρκετά καλό για σοβαρές χρήσεις, ή τουλάχιστον για να είναι χαριτωμένο.
Ορισμένα αποτελέσματα μπορεί να είναι οικονομικά πολύτιμα. Για παράδειγμα, το δάσος μπορεί να είναι σε θέση να αναγνωρίζει περιλήψεις εγγράφων που βρίσκονται κοντά σε εκτενέστερες εκδόσεις – σκεφτείτε την περίληψη μιας εκτενούς έκθεσης, που δημοσιεύεται παράλληλα με αυτήν – και στη συνέχεια, σε απάντηση σε μια προτροπή, να δημιουργεί περιλήψεις εγγράφων που δεν έχει δει ποτέ πριν. Πώς μπορεί να το κάνει αυτό; Αξίζει να σημειωθεί ότι οι λέξεις και οι εικόνες είναι διαφορετικές, και ότι οι τεχνολογίες Τεχνητής Νοημοσύνης που δουλεύουν μ’ αυτές, είναι συνήθως επίσης διαφορετικές: το κείμενο παράγεται συνήθως από αυτό που είναι γνωστό ως μεγάλο γλωσσικό μοντέλο, ενώ οι εικόνες παράγονται συνήθως από ένα μοντέλο διάχυσης. Αλλά οι διαδικασίες είναι σε γενικές γραμμές παρόμοιες. Οι λέξεις τείνουν να εμφανίζονται κοντά σε άλλες λέξεις- με αυτόν τον τρόπο, η εγγύτητα μεταξύ των λέξεων είναι παρόμοια με την εγγύτητα μεταξύ λέξεων και εικόνων. Και τα μοτίβα εγγύτητας μεταξύ των λέξεων μπορούν να είναι αποκαλυπτικά. Με αρκετά παραδείγματα, ένα μεταφορικά διαμορφωμένο δάσος από δέντρα που αναγνωρίζουν λέξεις θα πρέπει να είναι εγγενώς ικανό να αναγνωρίζει αν μια ακολουθία λέξεων είναι γραμματική και ποιος συγγραφέας είναι πιθανό να την έχει γράψει. Μήπως το απόσπασμα ακούγεται σαν της Τζέιν Όστιν; Ή σαν πειρατική γλώσσα; Ή σαν να προέρχεται από ένα δεκατριάχρονο παιδί;
Η παραγωγή κειμένου λειτουργεί λίγο διαφορετικά από τη δημιουργία εικόνων, διότι, πρώτον, το κείμενο είναι μια ακολουθία λέξεων. Αντί να καταλήξει σε μια μοναδική επιθυμητή εικόνα, μια Τεχνητή Νοημοσύνη που δουλεύει με λέξεις πρέπει να επιλέξει την επόμενη λέξη πολλές φορές, ξανά και ξανά, σε σχέση όχι μόνο με την προτροπή σας αλλά και με τις προηγούμενες λέξεις που έχουν επιλεγεί. Υπάρχουν πολλές άλλες διαφορές. Ακόμα κι έτσι, όταν ένα γενετικό μοντέλο Τεχνητής Νοημοσύνης επιλέγει την επόμενη λέξη, μπορείτε να σκεφτείτε αυτή τη λέξη ως ένα μοναδικό σημείο αβεβαιότητας – θορύβου – που αναλύεται σε μια επιλογή λέξης, σαν να επρόκειτο για μια πολύ μικρή και απλή εικόνα. Αυτός είναι ο λόγος για τον οποίο μια σε γενικές γραμμές παρόμοια διαδικασία μ’ αυτή που παράγει τη σουρεαλιστική εικόνα της γάτας μπορεί να χρησιμοποιηθεί για τη δημιουργία μιας περίληψης οποιουδήποτε εγγράφου. Τα δεδομένα εκπαίδευσης της Τεχνητής Νοημοσύνης περιείχαν πολλά παραδείγματα περιλήψεων και τις πηγές τους- η διαδικασία της Τεχνητής Νοημοσύνης παράγει ένα τμήμα κειμένου που μπορεί να αναγνωριστεί ως περίληψη, επειδή ενεργοποιεί μεταφορικά τα δέντρα που αρχικά ήρθαν για να αναγνωρίσουν τις περιλήψεις, παρόλο που τα θέματα που συνοψίζονται δεν είναι τα ίδια με εκείνα της εκπαίδευσης. (Κανείς δεν γνώριζε εκ των προτέρων πόσο εντυπωσιακά καλά θα λειτουργούσε αυτό).
Για τους μη προγραμματιστές, το γεγονός ότι οι Τεχνητές Νοημοσύνες μπορούν να παράγουν κώδικα μπορεί να φαίνεται εκπληκτικό. Αλλά τα προγράμματα υπολογιστών είναι ένα είδος κειμένου και τα δεδομένα εκπαίδευσης είναι άφθονα. Η κωδικοποίηση είναι συχνά εξωφρενικά κουραστική, επειδή η συγγραφή ενός προγράμματος περιλαμβάνει πολλές ενοχλητικές λεπτομέρειες, με τις οποίες πρέπει να ασχοληθείτε πριν καν αρχίσετε να ασχολείστε με τους απώτερους στόχους σας. Όμως οι προγραμματιστές έχουν ήδη δημιουργήσει πολλά εκατομμύρια προγράμματα που αντιμετωπίζουν τέτοιου είδους λεπτομέρειες, με μικρές παραλλαγές σε κάθε περίπτωση, και έχουν αναρτήσει τον κώδικα στο διαδίκτυο. Ακριβώς όπως το σώμα μιας γάτας μπορεί να προσαρμοστεί για να χωρέσει σε μια εξάρτηση αλεξιπτώτου, αυτά τα προϋπάρχοντα προγράμματα μπορούν να τροποποιηθούν ελαφρώς από τη γενετική Τεχνητή Νοημοσύνη για να προσαρμοστούν στις ιδιαιτερότητες μιας προτροπής. Σύμφωνα με ορισμένες εκτιμήσεις, η γενετική Τεχνητή Νοημοσύνη μπορεί να αυξήσει την παραγωγικότητα των προγραμματιστών κατά είκοσι έως τριάντα τοις εκατό ή και περισσότερο.
Αν το κείμενο είναι μια μονοδιάστατη σειρά λέξεων και οι εικόνες είναι δισδιάστατα πλέγματα pixel, τότε τα βίντεο είναι τρισδιάστατα, επειδή εκτείνονται στο χρόνο. Αλλά οι ίδιες αρχές που επιτρέπουν τη δημιουργία κειμένου και εικόνων, λειτουργούν και για τα βίντεο. Πρόσφατα, το OpenAI ανακοίνωσε το Sora, ένα σύστημα δημιουργίας βίντεο που μπορεί να δημιουργήσει ρεαλιστικά βιντεοκλίπ από προτροπές κειμένου. Στον φυσικό κόσμο, η δημιουργία ταινιών απαιτεί συχνά ένα άτομο για τη συνέχεια – κάποιον που φροντίζει ώστε τα σκηνικά, τα χτενίσματα και η γωνία του ήλιου να μην αλλάζουν ξαφνικά από τη μια στιγμή στην άλλη. Η συνέχεια είναι σημαντική γιατί είναι αυτό που κάνει την πραγματικότητα συνεπή και, κατά μία έννοια, πραγματική- είναι σημαντικό ένα πράγμα να εξακολουθεί να μοιάζει με τον εαυτό του ακόμη και αν βγει από το κάδρο και επιστρέψει. Μέχρι τώρα, τα σφάλματα συνέχειας εμπόδιζαν την Τεχνητή Νοημοσύνη να δημιουργήσει πειστικά βίντεο. Αν ένα σύστημα δημιουργικής εικόνας προσπαθήσει να παράγει τα frames μιας ταινίας, αυτά τα frames καταλήγουν ασύνδετα, με λεπτομέρειες που δεν ταιριάζουν καθώς περνάει ο χρόνος.
Το Sora προσεγγίζει τη συνέχεια χρησιμοποιώντας μια απλή αρχή. Θυμάστε πώς το χαμηλότερο στρώμα ενός δέντρου μπορεί να είναι ένα πλέγμα που μετρά απλές ιδιότητες, όπως το χρώμα ή η ευκρίνεια ενός τμήματος μιας ακίνητης εικόνας; Η Sora χρησιμοποιεί μια διαφορετική βασική ιδέα για να αποτυπώσει τη συνέχεια. Σε μια ταινία, ένα συγκεκριμένο κομμάτι της εικόνας σε ένα καρέ θα εμφανιστεί γενικά και στο επόμενο καρέ, αν και συνήθως θα έχει αλλάξει λίγο- για παράδειγμα, μια λάμψη στο μάτι μιας γάτας θα αντέξει πιθανότατα για περισσότερα από ένα καρέ, αλλά δεν θα παραμείνει ακριβώς στο ίδιο σημείο. Δεν είναι πολύ δύσκολο να υπολογίσετε πώς τα μικρά στοιχεία μιας κηλίδας, όπως μια λάμψη στο μάτι μιας γάτας, μετακινούνται από τη μια θέση στην άλλη σε μια σειρά frames. Μόλις αναλύσετε μια ταινία μ’ αυτόν τον τρόπο, παίρνετε σαρώσεις τμημάτων εικόνων που συνεχίζουν από frame σε frame, μέσα στο χρόνο. (Αυτό που ονομάζω sweeps ονομάζεται “patches” στην περισσότερη ακαδημαϊκή βιβλιογραφία, αλλά επειδή τα patches απλώς κάθονται εκεί και τα sweeps κινούνται, προτιμώ να χρησιμοποιώ sweeps εδώ).
Ένας τρόπος για να κατανοήσουμε αυτή την ιδέα θα μπορούσε να είναι μέσω ενός αποσπάσματος από το μυθιστόρημα του Kurt Vonnegut “Σφαγείο-Πέντε”, όπου περιγράφεται πώς φαίνεται ο κόσμος στους εξωγήινους που ονομάζονται Tralfamadorians: Το Σύμπαν δεν μοιάζει με πολλές φωτεινές μικρές κουκκίδες για τα πλάσματα από το Tralfamadore. Τα πλάσματα μπορούν να δουν πού έχει πάει και πού πηγαίνει κάθε αστέρι, έτσι ώστε ο ουρανός να είναι γεμάτος με αραιά, φωτεινά μακαρόνια. Και οι Tralfamadorians δεν βλέπουν ούτε τους ανθρώπους ως δίποδα πλάσματα. Τους βλέπουν ως μεγάλες σαρανταποδαρούσες με πόδια μωρών στη μία άκρη και πόδια γερόντων στην άλλη.
Για τον Sora, αυτά τα σκουπίδια είναι τα θεμελιώδη δομικά στοιχεία, αντί για τα pixel που αποτελούν τις ακίνητες εικόνες. Οι συνδυασμοί των σαρώσεων των οπτικών χαρακτηριστικών μέσα στο χρόνο, συνδέονται με περιγραφές κειμένου και, εισάγοντας προτροπές κειμένου, οι χρήστες μπορούν να επανασυνδυάσουν αυτές τις σαρώσεις με νέους τρόπους. Η διαδικασία δημιουργίας ταινιών με αυτό το είδος μοντέλου αποτυπώνει φυσικά μεγάλο μέρος του τρόπου με τον οποίο κινούνται τα πράγματα στην πραγματικότητα, συμπεριλαμβανομένου του τρόπου με τον οποίο αλλάζουν οι προοπτικές όταν κινείται η κάμερα και του τρόπου με τον οποίο τα σώματα ταλαντεύονται. Μπορεί να προκαλέσει την απώλεια μιας μπουκιάς αφού ένα ψεύτικο άτομο φάει μέρος ενός ψεύτικου μπιφτεκιού. Ταυτόχρονα, μπορούμε να αρχίσουμε να καταλαβαίνουμε γιατί τα χέρια μπορεί να είναι πιο πιθανό να παραμορφωθούν από τη διαδικασία. Τα χέρια έχουν τη δική τους εσωτερική δομή και τις δικές τους αρχές κίνησης, πράγμα που σημαίνει ότι ο συνδυασμός του τρόπου με τον οποίο οι ραβδώσεις τείνουν να ρέουν για μια ολόκληρη σκηνή μπορεί εύκολα να χάσει αυτό που συμβαίνει στον μικρόκοσμο ενός χεριού.
5. Η γραμμή των δέντρων
Θα θέσει αυτό το είδος τεχνολογίας τους σκηνογράφους και τους προγραμματιστές χωρίς δουλειά; Δεν το νομίζω. Στην περίπτωση των προγραμματιστών, υπάρχει τεράστια ζήτηση για νέα και ενημερωμένα προγράμματα. Αλλά υπάρχει επίσης η άποψη ότι η Τεχνητή Νοημοσύνη δεν μπορεί πάντα να κάνει ολόκληρη τη δουλειά ενός δημιουργικού ανθρώπου. Γιατί όχι;
Η απάντηση στο ερώτημα αυτό απαιτεί να σκεφτούμε τόσο τις δυνάμεις όσο και τους περιορισμούς της τεχνολογίας. Όταν ζητάτε από μια Τεχνητή Νοημοσύνη να φτιάξει ένα νέο δέντρο-φάντασμα ως απάντηση σε μια προτροπή, υπάρχει ένα ορισμένο είδος νέου πράγματος που εισάγεται στον κόσμο. Αυτό συνεπάγεται ένα είδος δημιουργικότητας. Η γελοιογραφία μας, ωστόσο, υποδηλώνει έντονα ότι πρόκειται για δημιουργικότητα με ανώτατο όριο. Γεμίζει τα κενά ανάμεσα στα δέντρα, αλλά δεν σκαρφαλώνει πάνω από αυτά.
Περιορίζονται τα ανθρώπινα μυαλά μ’ αυτόν τον τρόπο; Ή μπορούμε να σκεφτούμε πάνω από τη γραμμή των δέντρων αυτών που γνωρίζουμε; Μπορεί μια Τεχνητή Νοημοσύνη να φτάσει πάνω από τη δική της γραμμή δέντρων; Οι ερευνητές διαφωνούν σχετικά με αυτά τα σημαντικά ερωτήματα- αυτή τη στιγμή, πολύ λίγα είναι γνωστά τόσο για τις ανθρώπινες όσο και για τις τεχνητές διαδικασίες για να πούμε πολλά με βεβαιότητα. Στην πράξη, όμως, πρέπει να κάνουμε υποθέσεις για τους ανθρώπους και τις μηχανές καθώς φέρνουμε τις μηχανές στον ανθρώπινο κόσμο. Πιστεύω ότι είναι καλύτερα να υποθέσουμε ότι οι άνθρωποι μπορούν να φτάσουν ψηλότερα από τα εικονικά δέντρα μιας Τεχνητής Νοημοσύνης. Αυτή η υπόθεση θα μας βοηθήσει να αποφύγουμε την παγίδα της επιλογής ενός μειωμένου ορίου για τον πολιτισμό. Ένας από τους κινδύνους της Τεχνητής Νοημοσύνης είναι ότι μπορεί να αρχίσουμε να συμπεριφερόμαστε σαν όλα όσα μπορούν να γίνουν στο μέλλον να είναι αρκετά παρόμοια με όσα έχουν γίνει στο παρελθόν, ώστε η Τεχνητή Νοημοσύνη να μπορεί να τα κάνει όλα. Πιστεύω ότι πρέπει να αντισταθούμε σ’ αυτήν την υπόθεση.
Ένα πρόβλημα με τις συνήθεις ανθρωπομορφικές αφηγήσεις για την Τεχνητή Νοημοσύνη είναι ότι δεν καλλιεργούν τη διαίσθησή μας για τις αδυναμίες της. Ως αποτέλεσμα, οι συζητήσεις μας σχετικά με την τεχνολογία τείνουν να περιλαμβάνουν αντιπαραθέσεις μεταξύ των άκρων: υπάρχουν οι ενθουσιώδεις που πιστεύουν ότι φτιάχνουμε έναν κοσμικά μεγάλο εγκέφαλο που θα λύσει όλα τα προβλήματά μας ή θα μας εξαφανίσει, και οι σκεπτικιστές που δεν βλέπουν μεγάλη αξία στην Τεχνητή Νοημοσύνη. Οι σκεπτικιστές συχνά επικεντρώνονται μόνο στο τρίτο βήμα μας – δουλεύοντας αντίστροφα για να παράγουμε νέο περιεχόμενο που μπορεί να αναγνωριστεί από τα εικονικά μας δέντρα. Εστιάζοντας σ’ αυτό το βήμα, η υπολογιστική γλωσσολόγος Emily Bender και οι συνεργάτες της έχουν περιγράψει ορισμένα μοντέλα ως “στοχαστικούς παπαγάλους” που χρησιμοποιούν τη στατιστική για να ανακυκλώνουν τις υπάρχουσες πληροφορίες. Ομοίως, σ’ ένα δοκίμιο για αυτό το περιοδικό, ο Ted Chiang υποστήριξε ότι η γενετική Τεχνητή Νοημοσύνη δημιουργεί μόνο μια “θολή” ανακύκλωση των δεδομένων στα οποία εκπαιδεύτηκε.
Έχω μεγάλο σεβασμό γι’ αυτό το έργο, και συμφωνώ μαζί του σε κάποιο βαθμό. Αυτό όμως που δεν λαμβάνει υπόψη του είναι το τέταρτο βήμα μας, κατά το οποίο δημιουργείται ένα νέο δέντρο στο εικονικό μας δάσος. Κατά τη δημιουργία αυτών των δέντρων, η γενετική Τεχνητή Νοημοσύνη καθιστά σαφείς τις προηγουμένως σιωπηρές αντιστοιχίες στα δεδομένα εκπαίδευσης. Δεν υπάρχει τρόπος να απαριθμήσουμε εκ των προτέρων τους πολλούς πιθανούς συνδυασμούς, και έτσι μπορούμε να θεωρήσουμε αυτή τη διαδικασία ως δημιουργική. Αλλά μπορούμε επίσης να δούμε τα όριά της.
Θεωρώ ότι η εικόνα ενός νέου δέντρου που φτάνει μέχρι, αλλά όχι συνήθως πάνω από, το ύψος του θόλου που ορίζεται από άλλα δέντρα, είναι χρήσιμη και ισορροπημένη. Προσφέρει μια εναλλακτική λύση στην άποψη ότι η Τεχνητή Νοημοσύνη δεν κάνει τίποτε άλλο από το να αναμασά – αλλά επικοινωνεί επίσης σκεπτικισμό σχετικά με το αν η Τεχνητή Νοημοσύνη θα γίνει μια υπερβατική, απεριόριστη μορφή νοημοσύνης. Το να γεμίζουμε τα κενά ανάμεσα στα δέντρα είναι σπουδαίο, αλλά δεν πρέπει να συγχέεται με το να ανεβάζουμε το ταβάνι. Αυτό που κάνει είναι να μεγιστοποιεί την αξία των δεδομένων εκπαίδευσης. Αυτό, από μόνο του, είναι ένας αρκετά καλός λόγος για να ενθουσιαζόμαστε με τις τελευταίες εξελίξεις της Τεχνητής Νοημοσύνης.
6. Η αξία του δάσους
Η Τεχνητή Νοημοσύνη μεγάλων μοντέλων αξιοποιεί τα υπάρχοντα δεδομένα. Τα δάση της αναπτύσσονται αντλώντας από την ομοιότητα των επαναλαμβανόμενων εργασιών που αναλάμβαναν οι άνθρωποι στο παρελθόν. Μέσω της Τεχνητής Νοημοσύνης, ανακτούμε μέρος της αξίας που δημιούργησαν. Αυτό ισχύει για τη συγγραφή προγραμμάτων, τη σύνοψη εγγράφων, τη δημιουργία μαθημάτων, τη ζωγραφική εικόνων γάτας και ούτω καθεξής. Μπορούμε να σκεφτούμε την Τεχνητή Νοημοσύνη ως μια μέθοδο για να κάνουμε το παρελθόν πιο παρόν στη σημερινή ανθρώπινη προσπάθεια, διογκώνοντάς το.
Η αξιοποίηση της ανθρώπινης προσπάθειας με νέους, καλύτερους τρόπους είναι ο ορισμός της οικονομικής αξίας. Αυτή είναι μια καλή αρχή εκκίνησης που πρέπει να έχουν κατά νου οι διευθυντές, οι επενδυτές και οι πελάτες. Αν θέλετε να καταλάβετε πού θα φέρει τη μεγαλύτερη αξία η γενετική Τεχνητή Νοημοσύνη, αναρωτηθείτε: Ποιες ανθρώπινες δραστηριότητες έχουν γίνει πολλές φορές στο παρελθόν, αλλά όχι ακριβώς με τον ίδιο τρόπο; Σε αυτούς τους τομείς, η γενετική Τεχνητή Νοημοσύνη μπορεί κατά πάσα πιθανότητα να βελτιώσει την κατάσταση.
7. Πλοήγηση στο δάσος
Οι άνθρωποι έχουν εύλογες ανησυχίες για την Τεχνητή Νοημοσύνη – ανησυχίες για την ασφάλεια, την ποιότητα, τη δικαιοσύνη και την οικονομική εκτόπιση. Το καρτούν μας μπορεί επίσης να μας βοηθήσει να κατανοήσουμε το έργο εκείνων που προσπαθούν να αντιμετωπίσουν αυτές τις ανησυχίες. Από μακριά, το καρτούν μας σχηματίζει ένα τρίπτυχο: στη μέση, μεταξύ των δεδομένων εκπαίδευσης από τη μία πλευρά και των γενετικών αποτελεσμάτων από την άλλη, εκτείνεται ένα απέραντο, παράξενο δάσος. Τα δεδομένα εκπαίδευσης και τα output είναι κατανοητά, δηλαδή οι άνθρωποι μπορούν να τα κατανοήσουν. Το μεσαίο μέρος -το δάσος- θα παραμείνει, για το προβλέψιμο μέλλον, ως επί το πλείστον ακατανόητο.
Ένα βήμα που έχουν κάνει οι ερευνητές, με θετικά αποτελέσματα, είναι να αρχίσουν να περιφρουρούν τα κατανοητά μέρη – τις προτροπές και τα output. Τα σημερινά συστήματα Τεχνητής Νοημοσύνης περιλαμβάνουν “προστατευτικές μπάρες” που αμβλύνουν τους χρήστες οι οποίοι τα καθοδηγούν με τρόπους που οι προγραμματιστές τους προβλέπουν ότι θα είναι επιβλαβείς. Καταβάλλεται επίσης προσπάθεια για την απαξίωση των χειρότερων δεδομένων εκπαίδευσης. Αντιστεκόμενοι στα εγκληματικά, ψεύτικα, κακόβουλα ή μεροληπτικά δεδομένα εκπαίδευσης, μπορούμε να καλλιεργήσουμε ένα υγιέστερο δάσος.
Μπορούμε να κάνουμε το ίδιο το δάσος, τον κεντρικό πίνακα, πιο εύχρηστο; Στο “Δεν υπάρχει Τεχνητή Νοημοσύνη”, υποστήριξα ότι πρέπει να βρούμε τρόπο να εντοπίσουμε τις συνδέσεις μεταξύ συγκεκριμένων εισόδων και εξόδων σε μεγάλα μοντέλα Τεχνητής Νοημοσύνης. Αυτό θα ισοδυναμούσε με την τοποθέτηση μονοπατιών από ψίχουλα ψωμιού μέσα στο δάσος καθώς αυτό αναπτύσσεται. Αυτό είναι εφικτό στη θεωρία, αλλά όχι ακόμη στην πράξη- πιστεύω ότι είναι σημαντικό να βρούμε τρόπο να το πετύχουμε. Ας υποθέσουμε ότι μια ομάδα κακοποιών θέλει να στρατολογήσει μια Τεχνητή Νοημοσύνη για να τους βοηθήσει να κατασκευάσουν μια βόμβα. Μπορεί να είναι αρκετά έξυπνοι ώστε να αποφύγουν να χρησιμοποιήσουν τη λέξη “βόμβα” σε μια προτροπή. Μπορεί ακόμη και να είναι σε θέση να ζητήσουν μια μεταμφιεσμένη έξοδο – ίσως υπάρχει τρόπος να πείσουν μια Τεχνητή Νοημοσύνη να φτιάξει μια συνταγή για κέικ που τυχαίνει να φτιάχνει εκρηκτικά. Αλλά το έργο τους θα ήταν πολύ πιο δύσκολο αν υπήρχαν ψίχουλα ψωμιού στο δάσος. Σε κάποιο σημείο, τα ίχνη θα οδηγούσαν σε ένα έγγραφο που σχετίζεται με βόμβα στα δεδομένα εκπαίδευσης.
Ορισμένοι προγραμματιστές και χρήστες της Τεχνητής Νοημοσύνης μπορεί να αντιτείνουν ότι υποτιμώ την τεχνολογία, αλλά διαφωνώ. Το να μπορούμε να δηλώσουμε τη συγκεκριμένη, πεπερασμένη αξία κάποιου πράγματος μπορεί να κάνει κακό στη φαντασίωση των άπειρων δυνατοτήτων, αλλά τελικά μας δίνει μια πιο περιεκτική και εφαρμόσιμη αντίληψη της αξίας αυτού του πράγματος. Άλλοι θα σημειώσουν ότι η τεχνολογία είναι πάντα σε κίνηση- η εκδοχή της Τεχνητής Νοημοσύνης που περιέγραψα εδώ μπορεί σύντομα να αντικατασταθεί από κάτι διαφορετικό, έτσι ώστε το καρτούν μας να καταστεί παρωχημένο. Ίσως και να γίνει. Καθημερινά δημοσιεύονται εργασίες από ερευνητές που προσπαθούν να ανοίξουν νέους δρόμους, και υπάρχει μια ατελείωτη ροή φωτεινών νεοφυών επιχειρήσεων.
Ακόμα κι έτσι, το καρτούν που δίνεται εδώ είναι μια λογική δήλωση για το τι υπάρχει σήμερα. Αυτό είναι μέρος της αξίας του. Αποτυπώνει τις δυνάμεις και τους περιορισμούς της τεχνολογίας της Τεχνητής Νοημοσύνης όπως είναι – και όχι όπως κάποιοι ερευνητές θα ήθελαν να είναι. Αν η εκδοχή της Τεχνητής Νοημοσύνης που περιγράφεται εδώ καταστεί παρωχημένη -αν το δάσος καεί- τότε όποιος εμφανιστεί στη συνέχεια θα είναι υποχρεωμένος να δημιουργήσει ένα βιώσιμο νέο καρτούν, μαζί με όλα τα υπόλοιπα ανθρώπινα στοιχεία που απαιτούνται για να είναι η νέα τεχνολογία μια πραγματική τεχνολογία. Ο συγγραφέας επιστημονικής φαντασίας Arthur C. Clarke δήλωσε ως γνωστόν ότι μια επαρκώς προηγμένη τεχνολογία είναι δυσδιάκριτη από τη μαγεία. Αλλά αυτό ισχύει μόνο αν η τεχνολογία αυτή δεν εξηγείται αρκετά καλά. Είναι ευθύνη των τεχνολόγων να διασφαλίσουν ότι οι προσφορές τους δεν εκλαμβάνονται ως μαγεία.
Πηγή : The New Yorker