Νωρίτερα φέτος, η εταιρεία Deep Mind με έδρα το Λονδίνο, παρουσίασε τις προβλεπόμενες δομές για περίπου 220 εκατομμύρια πρωτεΐνες, καλύπτοντας σχεδόν κάθε πρωτεΐνη από γνωστούς οργανισμούς στις βάσεις δεδομένων DNA. Τώρα, ένας άλλος τεχνολογικός γίγαντας συμπληρώνει τη σκοτεινή ύλη του πρωτεϊνικού μας σύμπαντος.
Οι ερευνητές της Meta (Facebook) χρησιμοποίησαν ένα σύστημα τεχνητής νοημοσύνης για να προβλέψουν τις δομές περίπου 600 εκατομμυρίων πρωτεϊνών από βακτήρια, ιούς και άλλα μικρόβια που δεν έχουν χαρακτηριστεί ακόμη.
«Αυτές είναι οι δομές για τις οποίες γνωρίζουμε τα λιγότερα. Πρόκειται για απίστευτα μυστηριώδεις πρωτεΐνες. Νομίζω ότι προσφέρουν τη δυνατότητα για μεγάλη διορατικότητα στη βιολογία», δήλωσε στο «Nature» ο Αλεξάντερ Ριβς, επικεφαλής της έρευνας στην Meta AI.
Η ομάδα δημιούργησε τις προβλέψεις χρησιμοποιώντας ένα μεγάλο γλωσσικό μοντέλο, ένα είδος τεχνητής νοημοσύνης που αποτελεί τη βάση για εργαλεία τα οποία μπορούν να προβλέψουν κείμενο από λίγα μόνο γράμματα ή λέξεις.
Συνήθως τα γλωσσικά μοντέλα εκπαιδεύονται σε μεγάλους όγκους κειμένου. Για να τα εφαρμόσουν στις πρωτεΐνες, ο Ριβς και οι συνάδελφοί του τα τροφοδότησαν με αλληλουχίες γνωστών πρωτεϊνών, οι οποίες μπορούν να εκφραστούν από μια αλυσίδα 20 διαφορετικών αμινοξέων, καθένα από τα οποία αντιπροσωπεύεται από ένα γράμμα. Στη συνέχεια, το δίκτυο έμαθε να συμπληρώνει αυτόματα τις πρωτεΐνες.
Αυτή η εκπαίδευση έδωσε στο δίκτυο μια διαισθητική κατανόηση των πρωτεϊνικών αλληλουχιών, οι οποίες περιέχουν πληροφορίες σχετικά με το σχήμα τους, εξήγησε ο Ριβς. Ένα δεύτερο βήμα – εμπνευσμένο από την πρωτοποριακή τεχνητή νοημοσύνη πρωτεϊνικών δομών AlphaFold της DeepMind – συνδυάζει αυτές τις γνώσεις με πληροφορίες σχετικά με τις σχέσεις μεταξύ γνωστών πρωτεϊνικών δομών και αλληλουχιών, για να δημιουργήσει προβλεπόμενες δομές από πρωτεϊνικές αλληλουχίες.
Το δίκτυο της Meta, που ονομάζεται ESMFold, δεν είναι τόσο ακριβές όσο το AlphaFold, είχε αναφέρει η ομάδα του Ριβς νωρίτερα αυτό το καλοκαίρι, αλλά είναι περίπου 60 φορές ταχύτερο στην πρόβλεψη δομών. «Αυτό σημαίνει ότι μπορούμε να επεκτείνουμε την πρόβλεψη δομών σε πολύ μεγαλύτερες βάσεις δεδομένων».
Οι επιστήμονες δοκίμασαν το μοντέλο τους σε μια βάση δεδομένων με μαζική αλληλουχία μεταγονιδιωματικού DNA από περιβαλλοντικές πηγές, όπως το έδαφος, το θαλασσινό νερό, το ανθρώπινο έντερο, το δέρμα και άλλα μικροβιακά ενδιαιτήματα. Διαπίστωσαν ότι η συντριπτική πλειονότητα των δεδομένων DNA προέρχονταν από οργανισμούς που δεν έχουν καλλιεργηθεί ποτέ και είναι άγνωστοι στην επιστημονική κοινότητα.
Συνολικά, το σύστημα της Meta προέβλεψε τις δομές περισσότερων από 617 εκατομμυρίων πρωτεϊνών μέσα σε 2 εβδομάδες, ενώ το AlphaFold μπορεί να χρειαστεί λεπτά για να δημιουργήσει μια απλή πρόβλεψη. Οι προβλέψεις είναι ελεύθερα διαθέσιμες για χρήση από οποιονδήποτε, όπως και ο κώδικας που διέπει το μοντέλο, είπαν οι ερευνητές.
Από αυτές τις 617 εκατομμύρια προβλέψεις, το μοντέλο έκρινε ότι περισσότερο από το ένα τρίτο είναι υψηλής ποιότητας. Έτσι, οι ερευνητές είναι σίγουροι ότι το συνολικό σχήμα της πρωτεΐνης είναι σωστό και, σε ορισμένες περιπτώσεις, μπορούν να διακρίνουν περισσότερες λεπτομέρειες σε ατομικό επίπεδο.
Ένα μεγάλο κομμάτι της βάσης δεδομένων AlphaFold αποτελείται από δομές που είναι σχεδόν πανομοιότυπες μεταξύ τους, και οι μεταγονιδιωματικές βάσεις δεδομένων «θα πρέπει να καλύπτουν ένα μεγάλο μέρος του προηγουμένως αθέατου πρωτεϊνικού σύμπαντος», δήλωσε ο Μάρτιν Στάινεγκερ, υπολογιστικός βιολόγος στο Εθνικό Πανεπιστήμιο της Σεούλ.
Ωστόσο, ο Σερκέι Οβτσινίκοφ, εξελικτικός βιολόγος στο Πανεπιστήμιο Χάρβαρντ, αναρωτιέται για τις εκατοντάδες εκατομμύρια προβλέψεις που έκανε το ESMFold με χαμηλή αξιοπιστία.
«Φαίνεται ότι δεν γνωρίζουμε τίποτα για πάνω από το μισό των πρωτεϊνών», σημείωσε.
Ο Μπαρκχαρντ Ροστ, υπολογιστικός βιολόγος στο Τεχνικό Πανεπιστήμιο του Μονάχου στη Γερμανία, δήλωσε εντυπωσιασμένος από τον συνδυασμό ταχύτητας και ακρίβειας του μοντέλου της Meta. Αμφισβήτησε όμως ότι υπερτερεί έναντι του AlphaFold στην πρόβλεψη πρωτεϊνών από μεταγονιδιωματικές βάσεις δεδομένων. Οι μέθοδοι πρόβλεψης που βασίζονται σε γλωσσικά μοντέλα -συμπεριλαμβανομένης και αυτής που ανέπτυξε η ομάδα του- είναι καταλληλότερες για τον γρήγορο προσδιορισμό του τρόπου με τον οποίο οι μεταλλάξεις μεταβάλλουν τη δομή των πρωτεϊνών, κάτι που δεν είναι δυνατό με την AlphaFold.
«Η πρόβλεψη δομής θα γίνει πιο λιτή, πιο απλή και πιο φθηνή και αυτό θα ανοίξει την πόρτα για νέα πράγματα», τόνισε ο Ροστ.
Η DeepMind δεν έχει επί του παρόντος σχέδια να συμπεριλάβει στη βάση δεδομένων της προβλέψεις δομής μεταγονιδίων, αλλά δεν το έχει αποκλείσει για το μελλον, σύμφωνα με εκπρόσωπο της εταιρείας. Ωστόσο, ο Στάινεγκερ και οι συνεργάτες του έχουν χρησιμοποιήσει μια έκδοση του AlphaFold για να προβλέψουν τις δομές περίπου 30 εκατομμυρίων μεταγονιδιωματικών πρωτεϊνών. Ελπίζουν να βρουν νέα είδη ιών RNA αναζητώντας νέες μορφές των ενζύμων που αντιγράφουν το γονιδίωμά τους.
Ο Στάινεγκερ βλέπει τη διερεύνηση της σκοτεινής ύλης της βιολογίας ως προφανές επόμενο βήμα για τέτοια εργαλεία. «Πιστεύω ότι αρκετά σύντομα θα έχουμε μια έκρηξη στην ανάλυση αυτών των μεταγονιδιωματικών δομών».
ΠΗΓΗ: Nature