Dans le cadre du cluster IA Grand Est ENACT[1], 9 chaires de recherche ont été attribuées à des chercheuses et chercheurs de renommée internationale au sein de laboratoires des sites lorrain et alsacien. Cette action renforce l’excellence scientifique du territoire en soutenant des nouveaux travaux, en finançant doctorants et post-doctorants et en favorisant le transfert technologique ainsi que les collaborations avec le monde de l’industrie. Découvrez, à travers cette série de portraits les talents derrière chacune de ces chaires de recherche.
Directeur de recherche CNRS et responsable de l’équipe de chémoinformatique au laboratoire Chimie de la Matière Complexe (CNRS, Université de Strasbourg), Dragos Horvath dirige également le GDR BigDataChim, un groupement de recherche du CNRS chargé d’animer des activités de recherche interdisciplinaires dans le domaine de la chémoinformatique. Ses travaux se situent à l’interface entre le développement d’outils de modélisation moléculaire et leur application. Ils répondent aux défis liés à la chémoinformatique et à la conception de médicaments.
Pouvez-vous vous présenter et nous parler de votre parcours professionnel et académique ?
Je suis originaire de la Roumanie profonde. J’ai fait des études d’ingénieur chimiste à l’Université Babes-Bolyai de Cluj-Napoca, où j’ai été maître de conférences pendant deux ans. Je suis ensuite venu en France faire un master en chimie organique à l’Université de Lille. Mais comme j’ai toujours eu deux mains gauches et qu’aller travailler dans un laboratoire de chimie semblait un peu risqué, je me suis assez naturellement tourné vers l’informatique et la modélisation moléculaire. J’ai toujours été assez débrouillard avec les ordinateurs, j’ai appris l’informatique en autodidacte, j’aimais la théorie, les mathématiques, la programmation.
J’ai continué avec une thèse en modélisation moléculaire faite entre l’Institut Pasteur à Lille et l’Université Libre de Bruxelles. Durant ces années, André Tartare (qui était à l’époque directeur de l’équipe à l’Institut Pasteur et professeur à la faculté de pharmacie) a fondé une start-up qui a ensuite été rachetée par un groupe qui effectuait des tests biologiques de manière robotisée dans leurs installations à Poitiers. La boîte s’appelait Cerep, avant de devenir Eurofins. Eux, ils cherchaient des chimistes, nous, on voulait des biologistes qui testent nos molécules… C’était un mariage d’amour ! Je me suis retrouvé Directeur de la chémoinformatique. On vendait des molécules en plaques pour des usages dans le biomédical. Il fallait gérer les chimiothèques, gérer les structures chimiques, faire des prédictions : Quelles molécules sont actives ? Sur quelles cibles ?… Tout cela était de l’apprentissage automatique : on prenait des exemples de molécules actives et inactives et on demandait aux algorithmes de chercher les signatures permettant de distinguer les différentes classes de molécules. C’était vers la fin des années 90. À l’époque, nos bases de données comptaient encore des milliers de molécules. Maintenant ce sont des millions, voire des milliards. Mais le principe reste le même : aller chercher les structures qui sont les plus susceptibles d’intéresser le chimiste pour éviter le gaspillage des ressources de synthèse et des tests.
Pouvez-vous présenter la chaire de recherche que vous portez ? Quel est le thème central et quelles sont les questions que vous souhaitez aborder ?
Nos travaux vont s’orienter vers le domaine de la chimie fine. Avec le doctorant financé par la chaire, nous travaillerons sur la prédiction de la faisabilité chimique d’une molécule, c’est à dire, la rétro-synthèse, qui consiste à comprendre comment produire une structure moléculaire donnée. Ce sera intéressant de voir comment synthétiser des molécules spécifiques, dans un nombre minimal d’étapes.
Une fois qu’on comprend comment construire la structure d’une molécule, il faut aussi en anticiper le comportement dans différents contextes biologiques ou chimiques. La difficulté en chémoinformatique est que, malgré l’existence de grandes bases de données, leur taille reste insuffisante pour entraîner efficacement des réseaux de neurones. Nous utilisons donc plutôt des modèles mathématiques prédictifs appelés QSAR (Quantitative Structure Activity Relationships). Leur principe est simple : à partir de la structure d’une molécule, ils tentent de prédire son activité dans un test donné. Le taux de précision de ces modèles est souvent faible, ce qui pourrait sembler décevant. Mais même avec 10% de réussite, nos modèles permettent d’économiser une grande quantité de tests infructueux. Si on n’arrive pas à être plus précis c’est tout simplement car la nature est complexe. On sait développer des modèles physiques qui sont corrects, mais pour les faire fonctionner, il faut énumérer tous les microétats possibles que ces molécules pourraient adopter quand elles se mélangent avec des biomolécules (leurs cibles dans le vivant). Atteindre une meilleure précision impliquerait un temps de calcul monumental. Imaginons la chaîne d’une protéine qui peut se plier et se tourner de mille façons différentes. Si l’on voulait calculer toutes ces configurations possibles, il faudrait un temps de calcul colossal —plus d’années que de secondes depuis le Big Bang ! On parle de phénomènes d’une complexité telle que on ne peut pas espérer les résoudre, ni maintenant ni dans un futur proche… ni même dans un futur lointain. Il y aura toujours un problème qui saturera facilement tous les ordinateurs de la Terre mis ensemble. Dans ce contexte, notre travail consiste à s’approximer au mieux.
Quels types de collaboration souhaitez-vous établir et quels impacts (scientifiques, sociaux, économiques, politiques) espérez-vous à court et long terme ? Comment envisagez-vous le transfert ou la valorisation des connaissances produites ?
Le travail produit dans le cadre de cette chaire bénéficiera des nombreuses collaborations que nous avons déjà avec l’industrie. Et concernant les collaborations à l’intérieur du cluster, nous pourrons accompagner les collègues d’autres disciplines (informaticiens, mathématiciens…) qui s’intéresseraient à la chimie. Réciproquement, nous espérons profiter de leur expertise en informatique et mathématiques. Il y a plein de méthodes qui sont un peu exotiques pour nous, et là, l’expertise des informaticiens et des mathématiciens pourra nous orienter dans une bonne direction… C’est tout l’intérêt de s’impliquer dans une démarche interdisciplinaire.
Concernant les impacts, la recherche par définition s’attaque à des problèmes dont la réponse nous est inconnue. Vouloir lister les impacts attendus n’est pas le plus pertinent dans notre démarche. On ne sait jamais ce que nous allons trouver. Parfois, une prédiction erronée permet aux scientifiques de poser la bonne question et de découvrir des choses. Arriver à comprendre la formation de certaines molécules actives, serait une première étape vers la découverte de médicaments. Mais encore, il faudrait qu’elles ne soient pas toxiques et qu’elles puissent être métabolisées par le foie. On peut reprendre cette discussion dans 500 ans, et là, on verra clairement quel a été l’impact, mais c’est toujours une analyse post-mortem. On ne peut pas prédire. Tous ces effets d’annonce autour de l’intelligence artificielle peuvent donner le vertige. Il faut garder à l’esprit que la machine ne peut pas développer des hypothèses au-delà de ce qui est connu. Ce qui nous intéresse dans le cadre de cette chaire ce n’est pas tant l’accès à la technologie, mais surtout la collaboration interdisciplinaire qui peut être mise en place avec les collègues spécialistes d’autres domaines.
Pour aller plus loin :
- La modélisation moléculaire à la découverte des composés bioactifs, Dragos Hovath, 2011
[1] IA Grand Est ENACT est le cluster IA porté par l’Université de Lorraine, en partenariat avec l’Université de Strasbourg, Inria, le CNRS, l’Inserm, le CHRU de Nancy, les Hôpitaux Universitaires de Strasbourg, la Région Grand Est, la Métropole du Grand Nancy, l’Eurométropole de Strasbourg, l’Eurométropole de Metz et une cinquantaine d’entreprises privées. Il est lauréat de l’AMI “IA Cluster” opéré par l’Agence nationale de la recherche pour le compte de l’État, avec le soutien du plan France 2030. Le cluster vise à favoriser les synergies entre les acteurs de l’écosystème IA de la région et sa stratégie se traduit par des actions concrètes sur trois volets : formation, recherche et innovation.
