R. Chatila
Introduction à la robotique cognitive - cours Cogmaster
Raja Chatila Institut des Systèmes Intelligents et de Robotique (ISIR)
UPMC/CNRS
1
Le robot, paradigme de l’IA ...
n Initialement, l’Intelligence Artificielle est:
”Un ensemble de programmes informatiques qui résolvent des problèmes habituellement résolus par des processus mentaux de haut niveau chez les humains”
n Mais le robot est une machine n Matérialisée (embodied, “encorporée”); n agissant dans un milieu qui est le monde réel, elle
est mise en situation (situated).
n Robot : agent rationnel délibératif et réactif. n Fonctions inter-agissantes et intégrées.
2
A. Turing J. McCarthy
3
Le robot: principales capacités cognitives
Percevoir/représenter/Apprendre l’espace, les situations, les humains
3
Le robot: principales capacités cognitives
Percevoir/représenter/Apprendre l’espace, les situations, les humains
Se déplacer et agir:
Le mouvement
3
Le robot: principales capacités cognitives
Percevoir/représenter/Apprendre l’espace, les situations, les humains
Anticiper décider réagir
Se déplacer et agir:
Le mouvement
3
Le robot: principales capacités cognitives
Percevoir/représenter/Apprendre l’espace, les situations, les humains
Anticiper décider réagir
Communiquer Interagir
Se déplacer et agir:
Le mouvement
3
Le robot: principales capacités cognitives
Percevoir/représenter/Apprendre l’espace, les situations, les humains
Apprendre de nouvelles capacités
Anticiper décider réagir
Communiquer Interagir
Se déplacer et agir:
Le mouvement
4
La perception est imprécise et incertaine
Trajectoire réelle
Odométrie
Laser 3D - Carte d’élevation
Stéréo
Vert: ultrasons Rouge: Laser Bleu: trajectoire odométrique
4
La perception est imprécise et incertaine
Trajectoire réelle
Odométrie
Laser 3D - Carte d’élevation
Stéréo
Vert: ultrasons Rouge: Laser Bleu: trajectoire odométrique
R. Chatila
Questions
n Comment le robot représente-t-il son environnement de manière cohérente et comment s'y localise-t-il ?
n Comment planifie-t-il son propre mouvement, tout en étant réactif aux évolutions de l'environnement ?
n Comment prend-il ses décisions et élabore-t-il des plans d'action, en particulier dans un monde incertain et partiellement connu ?
n Comment peut-il interagir d'autres agents ou des humains ?
n Comment apprend-il à améliorer ses actions ? n Et enfin, comment toutes ces fonctions peuvent-
elles être organisées dans une architecture globale permettant un fonctionnement cohérent ?
5
8
Outil fondamental: le filtre Bayésien
x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman
•Particulaire •Markov
8
Outil fondamental: le filtre Bayésien
x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman
•Particulaire •Markov
Posteriori
8
Outil fondamental: le filtre Bayésien
x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman
•Particulaire •Markov
Vraisemblancede la mesure zt si robot à xtPosteriori
8
Outil fondamental: le filtre Bayésien
x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman
•Particulaire •Markov
Vraisemblancede la mesure zt si robot à xt
Priori: Distribution de probabilité de xt si le robot était à xt-1 et qu’il a effectué l’action ut-1 Posteriori
8
Outil fondamental: le filtre Bayésien
x = état: robot + éléments de l’environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation •Kalman
•Particulaire •Markov
Vraisemblancede la mesure zt si robot à xt
Priori: Distribution de probabilité de xt si le robot était à xt-1 et qu’il a effectué l’action ut-1 Posteriori
Distribution de probabilité de xt-1
(itération précédente)
R. Chatila
Perception: apprentissage et classification
n A partir d’exemples, d’observations: apprentissage supervisé. n l’environnement (ou le tuteur) fournit un nombre
suffisant de couples entrée/sortie (pas toujours possible).
n Apprentissage de distributions de probabilités.
n Apprentissage par renforcement
12
Classique. Les problèmes sont liés aux modèles et à la complexité
13
Classification par apprentissage supervisén Choix d’attributs caractéristiques pour chaque cellule:
n Densité des pointsn Différence de l’élévation et variancen Orientation moyenne de la normale et variance
n Classification supervisée bayésiennen 4 classes: obstacle, accidenté, plat, inconnun Elaboration des associations Classes-Attributs pour
construire les P(A |Ci) à partir d’exemples.
Utilisation en ligne
P (Ci | A) =P (A | Ci)P (Ci)
P (A)
P (A) =X
i
P (A | Ci)P (Ci)
P (A | Ci)
14
Modèle de terrain
n Classification
Plat Accidenté Obstacle Inconnu
n Reprojection dans l’image
Image stéréo
R. Chatila
Apprentissage de représentations sensori-motrices
15
Associative memory:Learned sensori-motor
representations
ObjectRepresentations
Composed Action synthesis
Actuation
Environment
Sensing
Value(Reinforcement learning)
Proprioception
LEARNEDSKILLS
(Memory)
LEARNED SYMBOLS(Memory)
R. Chatila
local: Potentiel
Stratégie de navigation
Evaluation de mouvement local
Easy
te
rrai
ns
Suivi de chemin
Génération du mouvement: plusieurs stratégies
16
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
Raisonnement géométrique dans l’espace des configurations du robot
• Espace des configurations. Topologie en général différente de celle de l’espace réel.
• Recherche probabiliste pour structurer l’espace des configurations
C = S1 x S1
R. Chatila
Formalisation de la prise de décision
n Notion d’état et de transition d’état par l’action n Contexte déterministe: logique des prédicats.
n Production d’un plan n Contexte incertain: <S, A,T, R, Ω, O >
n Indéterminisme de l’action. Transition probabiliste entre états T: SxA→ S’ (distribution de probabilités).
n Processus markovien. Production d’une politique maximisant une utilité.
n Si état S’ inconnu (probabilité de se trouver dans un état donné): Processus markovien partiellement observable. O: SxA→π(Ω).
n R: S×A → ℜ : récompenses associées aux états et/ou aux actions
n Si probabilités de transition inconnues: apprentissage par renforcement. 19
R. Chatila
Processus markovien
21
AGENT: π→a
Monde: T(s,a,s’)Etat s
Actio
n a
π*(s) = argmaxa∑s' T(s, a, s’)U(s’) T(s, a, s’) = Probabilité d’atteindre un état s’ à partir de l’état s
U(s’) = Utilité de l’état s’.
Politique optimale
R. Chatila
Observabilité partielle
22
MDP: Etat connu après exécution d’une action
POMDP:Estimation bayésienne de l’état
Estimation b→b’
π: b’→ a
b’
Observation o Ac
tion
a
Monde: s→s’ T(s,a,s’ ), O(s’,a,o)
R. Chatila
Mécanisme de décision
n Problème d’optimisation séquentiel
n Principe d’optimalité de Bellman. Maximiser l’utilité U(s) qui s’écrit comme fonction d’un état et de la transition vers ses voisins:
23
Ui+1(s) ßR(s) + γ maxa ∑s’ (T(s, a, s’) Ui(s’))
R. Chatila
Apprentissage par renforcement (RL)
•Q(s,a) = R(s) + γ∑s’T(s,a,s’)maxa’Q(s’,a’)
24
Action at
st
rtrt+1
st+1
tt+1
Actions non déterministes
Environnement
R. Chatila
Objectif de l’apprentissage
n Apprendre l’utilité d’une politique Uπ(s) : Somme des récompenses espérées pour cette politique.
n Politique maximisant l’utilité.
25
U⇡(s) = E
" 1X
t=0
�tR(st) | ⇡, s0 = s
#
Combiner: • Exploitation: maximise la récompense globale dans l’état d’estimation actuel des utilités. • Exploration: pour éviter l’application systématique de politiques sous-optimales. Tirage aléatoire d’une action pour explorer d’autres voies.
R. Chatila
Le robot délibératif et réactif
n Intégrer dans un seul système n Les capacités d’anticipation et de décision au long
terme n La prise en compte de l’incertain dans la perception,
l’action et l’évolution du monde n Les capacités d’apprentissage n Les capacités de réaction et d’adaptation à
l’environnement immédiat
28
R. Chatila
Planification (états, temps, ressources) “symbolique”
Supervision réactive
Architecture Planification/Action
29
Architecture hybride 3 couches Représentations symboliques Raisonnement logique Calcul numérique
Modules fonctionnels (“numérique”)
Modèle BDI
Coopération et redondance
R. Chatila
Décisions simples
n Modularité
n Module. Modèle formel: automate à états finis
30
T
T
T
T
T
T
T
T
S
S
S
S
S
R. Chatila
Remarques de conclusions
n Compatibilité de la représentation avec la tâche
n Obligation du sens : le monde doit faire sens pour permettre l’action
n Compatibilité de la décision et de l’action avec la dynamique de l’environnement et de la tâche (et non pas la rapidité)
n La nécessité de l’auto-référence (conscience de soi) par rapport à l’extérieur?
32