Cet article en deux volets est consacré à la recherche de nouveaux principes actifs in silico (drug design in silico), en se limitant aux principes actifs constitués de petites molécules, à l'exclusion des vaccins et biomédicaments. Le premier volet (ci-dessous), après quelques rappels sur les grandes étapes de la recherche d'un principe actif, présente les bases de données disponibles en libre accès regroupant cibles thérapeutiques et petites molécules chimiques susceptibles d'interagir avec ces cibles. Le second volet traite du criblage virtuel en ligne et des deux principales approches de celui-ci : celle qui utilise les propriétés des petites molécules chimiques (en anglais, ligand-based virtual screening (LBVS)) et celle qui utilise la structure tridimensionnelle de la cible thérapeutique (en anglais, structure-based virtual screening (SBVS)).
Introduction
Il faut entre 12 et 15 ans et plus d’un milliard d’euros en moyenne pour développer un nouveau médicament. C’est un processus complexe qui implique de nombreuses étapes et des compétences variées. L’enjeu est de taille pour le chercheur de médicament : s’il a déjà aujourd’hui à sa disposition des données massives (« Big Data ») générées pour le moment par les technologies haut-débit, dans un futur proche il pourra compter sur d’autres données, comme celles provenant des objets connectés.
Les données actuelles proviennent pour la plupart des « -omiques » (la génomique, la protéomique…) et des criblages chimiques. Traitées par certains algorithmes, elles devraient permettre de faire des progrès considérables dans le secteur de la santé. Produites par des milliers de laboratoire de recherche dans le monde, elles sont stockées dans des « entrepôts numériques » qui se matérialisent sous forme de bases de données gratuites ou commerciales. Il faut savoir qu’il existe actuellement plus de 1000 bases de données contenant des milliards d’informations dans le secteur santé au sens large, consultables via Internet. Si les données sont essentielles – considérées par beaucoup comme l’or noir du 21ème siècle – il faut évidemment parvenir à les manipuler et les analyser afin de leur donner du sens et développer des modèles prédictifs pertinents.
Un des défis majeurs pour le cyber-chasseur de médicaments est de trouver les données et les logiciels de traitement nécessaires à l’aboutissement de son projet. Il existe bien évidemment des logiciels commerciaux mais l’on trouve aussi dans le cyber-espace des milliers de logiciels gratuits. Ces outils sont pour la plupart facilement accessibles depuis des serveurs en ligne via n’importe quel navigateur web moderne. Depuis plus de 20 ans, je collecte dans la littérature scientifique des bases de données ouvertes dans le domaine du médicament et des logiciels gratuits permettant de manipuler ces données (Villoutreix et col., Drug Discovery Today, 2013, 18 :1081-9 ; Singh, Chaput et Villoutreix, Briefings in Bioinformatics, 2020, sous presse). Je présente le fruit de cette veille quotidienne sur un site internet que j’ai développé (www.vls3d.com), notamment sur la page « shortlist » qui répertorie les principaux outils. Grâce aux informations extraites de ce site, nous allons explorer plusieurs services en ligne qui facilitent le design de candidats médicaments, depuis les bases de données dédiées aux cibles thérapeutiques jusqu’aux outils de criblage virtuel.
Les grandes étapes du processus de recherche d’un nouveau médicament
Développer un médicament est un processus long, coûteux et risqué. Le taux d’échec est généralement très élevé en raison de l’immense complexité des systèmes biologiques et des mécanismes moléculaires impliqués dans les pathologies. Dans les années 1980, les agents thérapeutiques étaient essentiellement classés en deux catégories : les vaccins et les médicaments de type petites molécules chimiques. Ces dernières années, une nouvelle classe est apparue : les « biomédicaments ». Ceux-ci incluent par exemple les anticorps monoclonaux, les protéines thérapeutiques recombinantes, certains peptides, la thérapie génique et la thérapie cellulaire (certains auteurs classent aussi les vaccins dans cette catégorie). Ainsi actuellement, et pour simplifier, nous pouvons dire qu’il existe les biomédicaments, qui ont comme point commun le fait de faire appel à une source biologique comme matière première du principe actif et les petites molécules chimiques, dont le principe actif est généralement issu de la synthèse chimique, souvent inspirée de produits naturels. Dans le cadre de cet article, nous nous limiterons aux approches concernant les médicaments de type petites molécules chimiques, mais il faut souligner qu’il existe de nombreuses autres approches dédiées aux biomédicaments.
Comment trouver des petites molécules chimiques candidates médicaments ? Dans le passé, la découverte de nouveaux médicaments résultait soit de la sérendipité, c’est-à-dire d’un hasard parfois heureux pour un chercheur, soit de l’utilisation de produits naturels. De nos jours, même si elle n’exclut pas les heureux hasards, la recherche de nouveaux médicaments est basée sur des méthodes rationnelles et structurées. Ces méthodes sont encore loin d’être parfaites. De manière schématique (Fig. 1), on peut découper le processus selon les grandes étapes suivantes (NB : ces étapes sont différentes dans le cas de criblage phénotypique, pour la recherche d’un biomédicament ou pour le repositionnement d’un médicament existant) :
- Étape nº 1 : Identification et sélection d’une cible ou de plusieurs cibles a priori impliquée(s) dans une pathologie. Généralement, une cible thérapeutique est une protéine qui est découverte en utilisant plusieurs approches expérimentales (biologie moléculaire, génomique, méthodes biophysiques, criblage chimique…). Cette étape est critique du processus de découverte d’un médicament.
- Étape nº 2 : Identification de petites molécules (dites « touches » ou « hits ») qui interagissent avec la cible ou les cibles (par exemple une petite molécule qui bloque le site catalytique d’une protéine surexprimée dans un cancer). Cette étape implique des approches de criblage expérimental et/ou virtuel.
- Étape nº 3 : Optimisation des touches vers les têtes de séries (molécules plus efficaces que la touche). Cette étape va impliquer plusieurs cycles de chimie médicinale, l’utilisation d’approches biophysiques, de modélisation informatique…
- Étape nº 4 : Optimisation des têtes de séries vers le candidat médicament (molécules encore plus efficaces et plus sûres). De multiples cycles de chimie médicinale, de tests expérimentaux, biophysiques… et des prédictions virtuelles sur ordinateur dites « in silico » seront nécessaires pour identifier ces molécules.
- Étape nº 5 : Tests précliniques. Ces études permettent d’acquérir les premières connaissances indispensables sur le comportement d’un candidat médicament avant les essais chez l’Homme. Les expérimentations sont essentiellement menées sur l’animal mais plusieurs algorithmes peuvent aussi guider les travaux.
- Étape nº6 : Les essais cliniques sur l’Homme sont utilisés pour démontrer l’efficacité des molécules développées avant la mise sur le marché. Il y a plusieurs phases :
- dans la phase I, le nouveau traitement ou vaccin est généralement administré à un petit groupe de volontaires en bonne santé.
- Si la phase I a donné des résultats probants, une autorisation est demandée pour réaliser un essai auprès d'un plus grand groupe de volontaires. Les essais de phase II incluent généralement des patients malades. À ce stade, la performance du médicament peut aussi être comparée à celle d'un placebo administré à un autre groupe de patients.
- Si les résultats de la phase II sont encourageants, la phase III est initiée. Cet essai est mené à plus grande échelle et inclut souvent plusieurs centaines de volontaires originaires de différents pays. Il s'agira entre autres de démontrer l'innocuité et l'efficacité du nouveau médicament ou vaccin. Ces étapes sont généralement suivies d’une phase de pharmacovigilance, après la commercialisation des produits, afin de repérer d’éventuels effets indésirables non détectés durant les étapes précédentes.
De nos jours, plusieurs technologies et disciplines innovantes, comme la bioinformatique1 et la chémoinformatique2, arrivent en renfort des approches expérimentales pour sans cesse améliorer l’efficience des premières étapes du processus (Hillisch et col., ChemMedChem, 2015, 10 : 1958-1962). Ces outils informatiques peuvent utiliser le « Big Data » et certaines approches d’intelligence artificielle encore actuellement de « bas niveau » (c’est-à-dire généralement des méthodes d’apprentissages automatiques, supervisées ou non, qui apprennent à partir des données injectées dans le système), des approches de simulation moléculaire... Certains logiciels peuvent aussi aider au moment des essais cliniques.
Des cibles thérapeutiques et des molécules chimiques en « open access » dans les bases de données
Les bases dédiées aux cibles thérapeutiques
Un nombre important de bases de données est dédié aux cibles (potentiellement) thérapeutiques. A titre d’exemple, supposons que nous recherchions des informations sur la coagulation sanguine. Il est possible de visualiser cette cascade de réactions complexes sur le site de la base Reactome (Table 1). Par recherche avec le mot-clé « Hemostasis » (en anglais), on obtient une première visualisation générale de ce système biologique (Fig. 2). En cliquant sur l’image, on visite alors une nouvelle page web qui contient des informations plus précises. Il est possible de sélectionner une étape, par exemple la formation du caillot sanguin (« formation of fibrin clot » en anglais) et de visualiser toutes les interactions connues, les protéines impliquées dans cette étape. L’interface est totalement interactive et on peut agrandir une image avec la souris de son ordinateur. Dans l’interface de Reactome, on peut cliquer sur une protéine de la cascade, par exemple le facteur Xa3, et l’on a directement un lien vers une autre base de données, la « Protein Data Bank (PDB) » (ou vers la PDB Europe), qui contient des informations sur la structure 3D expérimentale de cette protéine.
Dans les bases on trouve le nom facteur X ou facteur Xa, le « a » indique que l’enzyme a été activée et est pleinement fonctionnelle. Le numéro d’identification du facteur Xa proposé dans l’interface Reactome pour la PDB est « 4y6d », mais plusieurs autres structures 3D sont disponibles. Si l’on va sur la PDB, avec comme code de recherche « 4y6d », on va retrouver le facteur Xa ainsi que le fichier qui contient les coordonnées atomiques de sa structure. De nombreuses autres informations importantes sont disponibles sur le site. La protéine peut alors être visualisée de manière interactive directement sur le site de la PDB (Fig. 3).
L’existence d’une structure 3D d’une cible est une information critique pour le chasseur de médicaments. Cela suggère qu’il sera possible de rechercher des petites molécules chimiques par des approches de criblage virtuel et de modélisation moléculaire1. Ces informations vont aussi guider la synthèse chimique afin de construire des molécules ayant plus d’affinité pour la cible. Il est évidemment plus simple de trouver une petite molécule qui bloque une poche catalytique d’une cible lorsqu’on peut voir la distribution des atomes dans l’espace, étudier les propriétés de la poche ou de la cavité qui va interagir avec cette petite molécule.
Par ailleurs, l’interface Reactome permet d’obtenir le code UniProt du facteur X (chez l’Homme, P00742). Il est alors possible d’aller chercher d’autres informations sur cette protéine dans la base UniProt (une base de données qui contient des millions de séquences de protéines et de nombreuses autres informations), par exemple rechercher s’il existe des patients ayant des mutations dans le gène qui code pour le facteur X. Si la protéine qui nous intéresse n’a pas de structure 3D expérimentale (par cristallographie ou par RMN), il est souvent possible d’utiliser des approches de modélisation par homologie, qui visent à prédire la structure 3D d’une protéine en utilisant des patrons moléculaires (des protéines connues en 3D avec une identité de séquence proche de la séquence de la protéine que l’on cherche à prédire en 3D). Plus de 40 millions de modèles structuraux sont accessibles sur Swiss-Model et ModBase (Table 1). Il est à noter que des dizaines de services permettent de faire de la modélisation par homologie via le web. Enfin, dans cette visite rapide des bases de données concernant les cibles, il faut signaler que certaines bases sont plus spécialisées sur l’aide à la sélection d’une cible. Ces bases structurent l’information des cibles connues ou potentielles ainsi que leurs implications possibles dans des pathologies. Par exemple, trois bases ont été publiées récemment sur cet axe : Open Targets, Therapeutic Target Database (TTD) et Pharos. Sur Open Targets, en recherchant le facteur Xa (via le mot-clé « FX »), l’on observe que 139 maladies sont associées à cette protéine (Fig. 4). Sur TTD il est possible de trouver les cibles qui sont actuellement concernées dans des essais cliniques en cours.
Les bases dédiées aux petites molécules chimiques
En ce qui concerne les petites molécules chimiques, ici aussi de très nombreuses bases de données sont accessibles sur Internet. Par exemple PubChem et ChEMBL contiennent des millions de petites molécules chimiques annotées (Table 1). Ainsi sur PubChem, dans la section « BioAssays », il est possible de rechercher des molécules qui touchent une cible, par exemple notre facteur Xa. Avec cette recherche dans le moteur de recherche de l’interface, on arrive par exemple sur une page qui montre des molécules testées sur cette protéine et les affinités expérimentales mesurées (Fig. 5).
Il est possible d’aller ensuite visiter une base de données qui contient des médicaments déjà sur le marché ou en phases cliniques comme DrugBank. On recherche des informations par mots-clés ou par structure chimique. Ainsi en recherchant « coagulation factor Xa » et « cible » (« target » en anglais), on trouve des liens vers UniProt ou la PDB, mais aussi une table qui montre les relations entre la protéine et les médicaments existants (Fig. 6).
On constate par exemple qu’il y a plusieurs médicaments déjà sur le marché qui agissent sur cette protéine, par exemple le rivaroxaban, un anticoagulant. Un clic sur le nom de code de cette molécule dans la base (« identification number DB06228 ») et de multiples informations apparaissent dans une nouvelle fenêtre. D’autres bases de données vont structurer des informations différentes : certaines peuvent être spécialisées en produits naturels (par exemple la base de données Nubbe, extraits de plantes du Brésil) ou encore en extraits de plantes utilisées en médecine traditionnelle Chinoise (YaTCM) ou Indienne (IMPPAT). Il est généralement possible de télécharger les petites molécules présentes dans ces bases de données dans des formats électroniques spéciaux (par exemple formats SDF ou Mol2 ou SMILES). Dès lors, il peut être intéressant d’analyser avec un logiciel approprié ces petites molécules sur son ordinateur. L’outil DataWarrior est particulièrement approprié, il s’installe facilement sur tous les OS et permet de faire de multiples calculs ainsi que de visualiser les données de diverses manières. Il existe quelques tutoriels en Français sur cet outil (par exemple sur RadarWeb création, voir Table 1). Avec DataWarrior, il est aussi possible de télécharger automatiquement toutes les molécules présentes sur Wikipédia1via le menu « Database » si l’ordinateur est connecté à Internet (Fig. 7). Plusieurs analyses statistiques sont alors réalisables pour étudier plus en profondeur certaines propriétés physico-chimiques des composés. Par exemple, il est possible de calculer la masse moléculaire ou d’autres propriétés et de rechercher une valeur moyenne pour une propriété donnée. Une analyse en composantes principales sur les propriétés choisies est réalisable, c’est une possibilité pour visualiser l’espace chimique. Il est aussi possible de faire des recherches directement sur ChEMBL avec cet outil.
Une chimiothèque est une collection de petites molécules chimiques qui peut contenir plusieurs millions de composés déjà synthétisés (ou pas). Les résultats du criblage expérimental ou virtuel sont intimement liés à la qualité des composés présents dans les chimiothèques, il est donc primordial de les préparer avec soin. Il existe différents types de chimiothèques, qui contiennent :
- soit des molécules issues de la synthèse chimique traditionnelle ou combinatoire,
- soit contenant des substances naturelles,
- soit des milliards de molécules qui ne sont pas encore synthétisées (il s’agit alors de collections électroniques virtuelles).
De nombreux projets actuels visent à produire des molécules virtuelles via des approches d’intelligence artificielle. Les composés chimiques sont « entreposés » sous forme de fichiers électroniques ou de bases de données dans le cas des chimiothèques électroniques ou sous forme de poudre dans le cas de chimiothèques réelles. Les fournisseurs de produits chimiques proposent de multiples collections, environ 95 millions de composés sont disponibles dans le monde. Bien que ce nombre soit imposant, il ne représente qu'une infime partie des possibles. En effet, il est envisageable de synthétiser assez facilement entre 1020 et 1024 molécules mais il faut souligner que l’espace chimique total1 est quasiment infini. Ces chiffres sont impressionnants ! Ils indiquent sans ambigüité qu’il est illusoire d’envisager pouvoir cribler un jour la totalité de cet espace et que les approches chémoinformatiques et de modélisation biostatistiques sont nécessaires pour construire des chimiothèques plus « intelligentes » et pour identifier des candidats médicaments originaux. On peut trouver sur Internet plusieurs collections de molécules virtuelles, notamment la base de données GDB qui contient plus de 166 milliards de molécules (voir la liste disponible ci-après en PDF).
Documents à télécharger
Bibliographie
En plus des références mentionnées dans le texte, le lecteur est invité à consulter les ressources ci-dessous, rédigées en français.
- Vayer P, Arrault A, Lesur B, Bertrand M, Walther B. Apports de la chémoinformatique dans la recherche et l’optimisation des molécules d’intérêt thérapeutique. Med Sci (Paris), 2009, 25:871-7
- Bureau R. Modélisation moléculaire et conception de nouveaux ligands d'intérêts biologiques. Techniques de l’ingénieur 2014, 1-19.
- Rognan D, Bonnet P. Les chimiothèques et le criblage virtuel. Med Sci (Paris). 2014, 30:1152-60
- Sperandio O, Villoutreix B., Morelli X, Roche P. Les chimiothèques ciblant les interactions protéine-protéine. Med Sci (Paris). 2015, 31:312-9.
- Maupetit J, Saladin A, Tuffery P. Prédiction en ligne de la structure des protéines. SPECTRA ANALYSE 2010, 276: 27-33
Remerciements
L'auteur remercie Natacha Oliveira pour sa relecture attentive et ses tutos/vidéos « DataWarrior ».