Un nouvel ensemble de données permettant de prédire les interactions antigène-anticorps, publié lors de la prestigieuse conférence sur l’apprentissage automatique NeurIPS 2023, contribuera à accélérer la découverte de médicaments liés à l’IA
KYOTO, Japon--(BUSINESS WIRE)--Les anticorps constituent la modalité thérapeutique la plus importante dans la découverte de médicaments, car aucune substance ne se lie aux molécules cibles (antigènes) avec autant de précision et de force que les anticorps. Les organismes vivants peuvent produire une grande variété d’anticorps, dérivés de gènes, en quantités presque illimitées, à tel point qu’il est théoriquement possible de rechercher in vivo des anticorps efficaces basés sur d’énormes collections de gènes codant pour les anticorps. Il n’est cependant pas facile de les déchiffrer et il existe des limites à l’accumulation de données en raison de la complexité des gènes.
En immunisant des alpagas, qui possèdent un gène simple codant pour un anticorps, ce qui signifie qu’ils peuvent produire un large éventail d’anticorps, COGNANO a acquis une « bibliothèque » numérique de séquences d’anticorps et leur activité de liaison à différents antigènes. Généralement, la liaison entre un anticorps et un antigène se fait par correspondance biunivoque et il n’existe qu’un seul site de liaison (appelé épitope). Nous démontrons avec cet ensemble de données que l’intelligence artificielle a le potentiel de prédire la capacité de liaison d’anticorps jusqu’alors inconnus. Nous mettons cet ensemble de données à disposition de la communauté des chercheurs en tant qu’ensemble de données antigènes/anticorps le plus vaste et le plus précis au monde, dans l’espoir qu’il accélèrera les progrès dans la découverte de médicaments basés sur l’IA.
Nous espérons que de futurs travaux exploreront la possibilité non seulement de prédire la liaison, mais également d’identifier les épitopes et les séquences d’acides aminés responsables dans les antigènes et les anticorps. Nous pensons qu’il s’agit d’une avancée importante dans la découverte automatique de médicaments. COGNANO présentera cet accomplissement au NeurIPS 2023 en collaboration avec l’équipe Google.
Titre : AVIDa-hIL6 : Un ensemble de données VHH à grande échelle produit à partir d'un alpaga immunisé pour prédire les interactions antigène-anticorps.
Auteurs : Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Jennifer N. Wei, Zelda Mariet, Poomarin Phloyphisut, Hidetoshi Shimokawa, Joseph R. Ledsam, Lucy Colwell, Akihiro Imura
URL : https://arxiv.org/abs/2306.03329
1. Contexte
Les anticorps sont des protéines qui jouent un rôle essentiel dans le système immunitaire. Les anticorps sont devenus une classe importante d’agents thérapeutiques pour traiter les maladies humaines en raison de leur spécificité cible élevée et de leur affinité de liaison. Pour accélérer la découverte d’anticorps thérapeutiques, certaines méthodes informatiques, notamment l’apprentissage automatique, ont suscité un intérêt considérable pour prédire des interactions spécifiques entre les anticorps candidats et les antigènes cibles tels que des virus et des bactéries. Les progrès dans la découverte d’anticorps thérapeutiques ont cependant pris du retard par rapport aux progrès dans d’autres domaines de la découverte de médicaments en raison du manque de disponibilité d’ensembles de données à grande échelle et de haute qualité sur les interactions antigène-anticorps. En particulier, les ensembles de données accessibles au public dans les études existantes présentent des limites notables, telles que de petites tailles et un manque d’échantillons non contraignants et de séquences exactes d’acides aminés. Des ensembles de données à grande échelle dépassant les limites des ensembles de données existants sont par conséquent essentiels pour accélérer plus encore la découverte de médicaments liés à l’IA.
2. Contributions à la recherche
- Nous publions AVIDa-hIL6, qui est le plus grand ensemble de données existant pour prédire les interactions antigène-anticorps (10 fois plus grand que tout autre ensemble de données public) et qui contient des séquences d’acides aminés d’antigènes et d’anticorps ainsi que des étiquettes binaires pour des paires de liaison et non liantes.
- Nous avons conçu une nouvelle méthode de génération de données en utilisant le système immunitaire d’un alpaga vivant. Dans la mesure où notre méthode de génération de données est applicable à n’importe quel antigène cible, elle peut constituer une technologie fondamentale pour établir une base de données plus complète sur les interactions antigène-anticorps. Nous avons d’ailleurs utilisé la même approche pour générer un ensemble de données sur les variantes du SRAS-CoV-2 et avons réussi à trouver des anticorps efficaces.
Article de référence : https://www.nature.com/articles/s42003-022-03630-3
- Nous dévoilons des résultats de référence expérimentaux sur AVIDa-hIL6 en utilisant des modèles d’apprentissage automatique. Ces résultats confirment qu’AVIDa-hIL6 fournit des références précieuses pour la recherche sur l’apprentissage automatique dans le domaine en pleine croissance de la prédiction des interactions antigène-anticorps.
3. Ensemble de données publié (AVIDa-hIL6)
AVIDa-hIL6 est disponible sur le site Internet (https://avida-hil6.cognanous.com) sous licence CC BY-NC 4.0. AVIDa-hIL6 contient des séquences d’acides aminés de la protéine interleukine-6 humaine (IL-6) utilisée comme antigène et anticorps et marqueurs binaires pour les paires de liaison et non liantes.
AVIDa-hIL6 contient en outre des informations sur l’interaction de divers anticorps avec 30 mutants différents, produits par des mutations ponctuelles artificielles, en plus de la protéine IL-6 sauvage. Cela suppose que des antigènes mutants émergent les uns après les autres pour échapper au système immunitaire, comme dans le cas de la pandémie de COVID-19. AVIDa-hIL6 contient notamment de nombreux cas sensibles dans lesquels des mutations ponctuelles de la protéine IL-6 améliorent ou inhibent la liaison des anticorps, fournissant ainsi aux chercheurs des informations précieuses sur les effets des mutations antigéniques sur la liaison des anticorps.
4. Perspectives
La limitation majeure d’AVIDa-hIL6 est le manque de diversité antigénique : plus précisément, AVIDa-hIL6 n’a que la protéine IL-6 comme antigène. Cette limitation conduit à l’applicabilité étroite d’un modèle formé sur AVIDa-hIL6. Il est en fait difficile pour un modèle d’apprentissage automatique formé en utilisant uniquement AVIDa-hIL6 de prédire les anticorps efficaces contre des antigènes autres que la protéine IL-6. Cependant, dans les applications de découverte de médicaments, il est nécessaire de trouver des anticorps efficaces contre les nouveaux antigènes émergents.
Une approche essentielle pour surmonter cette limitation consistera à accumuler des données marquées pour une plus grande variété d’antigènes et de leurs mutants. Notre méthode de génération de données présente l’avantage d’être applicable à n’importe quel antigène cible. À l’avenir, nous prévoyons de générer et de publier des ensembles de données pour divers antigènes, ce qui devrait être plus pratique pour créer des modèles permettant de prédire les interactions antigène-anticorps.
Le texte du communiqué issu d’une traduction ne doit d’aucune manière être considéré comme officiel. La seule version du communiqué qui fasse foi est celle du communiqué dans sa langue d’origine. La traduction devra toujours être confrontée au texte source, qui fera jurisprudence.
Contacts
COGNANO, Inc.
Akihiro Imura, +81-75-741-6962
cognano@cognano.co.jp