Modélisation statistique des interactions
protéine-ligand : prédiction de la
« druggabilité » des poches.
Rapport de Stage
Présenté par : Stéphanie Pérot
Directeur de stage : Anne-Claude Camproux
Formation : Master 2 Recherche de Biologie Informatique
Responsable : Catherine Etchebest
Université : Paris Diderot
Laboratoire d'accueil : Équipe de Bioinformatique Génomique et Moléculaire
2
Poche druggable
Composé druglike
Introduction
Druggabilité : capacité à fixer (ou non) un médicament ou un composé « druglike »
Composé druglike : composé caractérisé par des propriétés physico-chimiques (masse
moléculaire < 500, donneurs de liaisons H < 5 ; accepteurs de liaisons H < 10 ...)
Poche druggable : fixation d'un composé druglike
Poche non-druggable : pas de fixation
Criblage virtuel : prédiction in silico de l'activité des molécules
3
Principe du criblage virtuel
Banque de petites molécules
Structures protéiques
Filtrage in silico (ADME)
Détermination des sites de liaison
Arrimage moléculaire et évaluation (docking-scoring)
Optimisation
Phases cliniques
4
Principe du criblage virtuel
Druggabilité : capacité à fixer (ou non) un médicament
Prédiction de la
druggabilité des
poches
Banque de petites molécules
Structures protéiques
Filtrage in silico (ADME)
Détermination des sites de liaison
Arrimage moléculaire et évaluation (docking-scoring)
Optimisation
Phases cliniques
5
But du stage
Comment distinguer les poches druggables des
poches non-druggables ?
Ou
Quels descripteurs contribuent de manière
significative à la druggabilité des poches ?
6
Jeux de données
Étude des 85 protéines du jeu de Astex [1]
- haute résolution < 2.50 Å
- fixation de médicaments ou de composés druglike
=> caractère « druggable »
[1] : Hartshorn et al. (2007) J. Med. Chem. 50:726741[2] : Hajduk et al. (2005) J. Med. Chem. 48:25182525
Étude des 37 protéines du jeu de Hajduk [2]
- haute résolution < 2.50 Å
- criblage de 10000 composés :
- soit pas de fixation
- soit fixation à très faible affinité
=> caractère « non-druggable » ?
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
7
Jeu de poches druggables
[1] : Le Guilloux, Schmidtke and Tuffery (2008) : to be published
Algorithme de détection des poches
fpocket [1]
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
2bsm
8
Jeu de poches druggables
Poche complémentaire
Poche surfacique Poche profonde
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
67 poches druggables
2bsm
9
Jeu de poches non-druggables
[1] : Huang et al. (2006) BMC Structural Biology 6:1929[2] : Brady et al. (2000) J. Comput. Aided Mol. Des. 14:383401
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
LIGSITEcsc [1]
fpocket
1aha
1aha
1aha
PASS [2]
10
Jeu de poches non-druggables
LIGSITEcsc [1]
[1] : Huang et al. (2006) BMC Structural Biology 6:1929[2] : Brady et al. (2000) J. Comput. Aided Mol. Des. 14:383401
fpocket
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
182 poches non-druggables
1aha
PASS [2]
1aha
1aha
11
Descripteurs calculés (exemples)
Descripteurs physico-chimiques
- Acides aminés et propriétés
- Atomes et propriétés
- Aire de la surface polaire et apolaire (PSA et APSA) [1]
PSA : atomes d'azote et d'oxygène
APSA : atomes de carbone et de soufre
- Charge totale
Descripteurs géométriques Descripteurs structuraux
- Volume approximé - Structures secondaires
- Indice de flexibilité - Alphabet structural
[1] : Hajduk et al. (2005) J. Med. Chem. 48:25182525
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
(Développés par des codes python)
12
Méthodes d'apprentissage
Étude des descripteurs
- Analyse en Composantes Principales (ACP)
- Analyse univariée
Prédiction de la druggabilité des poches
- Régression logistique (glm)
- Séparateurs à Vaste Marge (svm)
Évaluation des résultats
- Indicateurs : Sensibilité (Se) : capacité à prédire les poches druggables
Spécificité (Sp) : capacité à prédire les poches non-druggables
Erreur (Er) : fiabilité de la méthode de prédiction [1]
- Validation croisée
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
Exemple de svm
(Développées par des codes R)
[1] : Nayal et al. (2006) Proteins 63:892906
13
Analyse des descripteurs : ACP
Analyse en Composantes Principales
variabilité : 26,8 %
Projection des poches Projection des descripteurs
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
physico-chimiques géométriques structuraux
Poches druggables (67)Poches non-druggables (182)
14
Analyse univariée des descripteurs
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
1588 2625 0.85 0.98
0.008 0.040.18 0.21
moyennes moyennes
moyennes
Poches druggables (67)Poches non-druggables (182)
15
12 Descripteurs :
Descripteurs pertinents
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
Poches druggables (67)Poches non-druggables (182)
16
[1] & [2] [1] [1] [1][2]
NouveauTrès significatif
12 Descripteurs :
Descripteurs pertinents
[1] : Nayal et al. (2006) Proteins 63:892906[2] : Hajduk et al. (2005) J. Med. Chem. 48:25182525
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
- accord avec les études de druggabilité
- nouveaux descripteurs
Poches druggables (67)Poches non-druggables (182)
17
Prédiction de la druggabilité
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
Taux de prédiction de la druggabilité des poches
Méthode Se (%) Sp (%) Er (%)
régression logistique 72,4 90,0 18,8
svm 75,4 91,7 16,4
18
Prédiction de la druggabilité
[1] : Nayal et al. (2006) Proteins 63:892906[2] : Hajduk et al. (2005) J. Med. Chem. 48:25182525[3] : Han et al. (2007) Drug Discov. Today 12:304313
1. Jeux de données 2. Descripteurs 3. Méthodes 4. Analyse 5. Descripteurs pertinents 6. Prédiction
Comparaison autres études
Nayal [1] : étude de la poche la plus druggable au sein d'une même protéine
88,9 % de poches druggables bien prédites
Hajduk [2] : quantification de la druggabilité des poches selon 3 classes
(faiblement / moyennement / hautement druggable)
77,0 (41,0) % des poches hautement (faiblement) druggables bien prédites
Han [3] : étude de la druggabilité des protéines à partir d'alignements de séquence et des svm
67,6 % des protéines druggables bien prédites
Taux de prédiction de la druggabilité des poches
Méthode Se (%) Sp (%) Er (%)
régression logistique 72,4 90,0 18,8
svm 75,4 91,7 16,4
19
Conclusion-Perspectives
Bilan
Court terme
Long terme
- Détermination de descripteurs pertinents, notamment la proportion de soufre
en surface (nouveau)
- Mise en place d'une fonction de score performante en terme de taux de
prédiction (poches druggables bien prédites à 72,4%)
- Approfondir les descripteurs d'intérêt (atomes, flexibilité ...)
- Mettre en place d'autres descripteurs (rugosité, compacité, inertie ...)
- Augmenter le nombre de poches druggables et non-druggables
- Quantifier l'incertitude sur les poches non-druggables (em)
- Déterminer différents types de poche en fonction de la nature du composé
médicamenteux
- Rechercher les descripteurs pertinents de chaque type de poche
20
Je vous remercie de votre attention ...
21
Principe des sphères-alpha
22
Descripteurs calculés
23
Descripteurs calculés
24
Indicateurs de validation
25
Descripteurs de la fonction de score
26
Prédiction
27
Définitions
Méthode ADME-Tox : prédiction préliminaire du comportement in vivo d'un composé afin
de tester sa capacité à être un médicament
ADME-Tox : Absorption – Distribution – Métabolisme – Excrétion – Toxicité
Docking (arrimage) : placement des petites molécules dans la poche du récepteur
Scoring : évaluation (score) puis classement des ligands potentiels sur la base d'un score
ou d'énergie d'interaction protéine-ligand.
28
Définitions
Composé druglike : Un composé druglike se caractérise en termes de propriétés physico-
chimiques, d'absorption intestinale, de stabilité/réactivité ou encore d'interaction avec
les mécanismes de régulation cellulaire. Généralement, un tel composé vérifie les règles
de Lipinski [1] qui sont nécessaires mais pas suffisantes : coefficient de partage octanol/
eau ou log(P) calculé < 5 ; masse moléculaire < 500 ; donneurs de liaisons hydrogènes
< 5 ; accepteurs de liaisons hydrogènes < 10
[1] : Lipinski et al. (2001) Adv. Drug. Deliv. Rev. 46:326
29
Diagramme de Venn