APPRENTISSAGE PAR RENFORCEMENT

SITE OFFICIEL DE
PROJET :
APPRENTISSAGE PAR RENFORCEMENT


À PROPOS DE NOUS
élèves ingénieurs en école d'informatique
On est des étudiants en ISIMA à Aubière. On passe ces deux semaines de fin de juin à faire un projet en apprentissage par renforcement . Cette semaine nous a permis de bien se lancer dans ce projets et bien connaitre la chaine de Markov ; qu'on a implémenté dans le chef d'œuvre .
Vous trouverez le lien vers notre Gitlab pour voir le code si vous voulez
Quelques notes

La representation de nobres d'action en fontion de numero d'épisodes , avec un facteur d'apprentissage qui vaut 0.1

La representation de nobres d'action en fontion de numero d'épisodes , avec un facteur d'apprentissage qui vaut 0.5

La representation de nobres d'action en fontion de numero d'épisodes , avec un facteur d'apprentissage qui vaut 1
Comparaison :

Remarque :
on constate que plus le facteur d'apprentissage (L'un des paramètres de la relation de BELLMAN ; pour la mise à jour de la Q_table) est grand plus la courbe converge rapidement vers un nombre d'action stables et optimale.
​
​
​
​
ε-greedy :

Explication :
le parametre "epsilon" represente le taux de l'usage de l'aleatoire dans le choix de l'action suivante.
On a choisit que la variation de ce parametre soit suivant une suite definie par : a/ ( 2*(n + a) ) .
On remarque que plus a est grande plus l'apprentissage est lent (convergence vers 0 très lente) .
Et plus a est petit , l'apprentissage va etre rapide mais peu efficace .
C'est pour celà ,qu'on a choisit dans notre projet , a= 200 .
​
N.B :
Ces courbes ont été faite avec du code Python en utilisant des données de l'apprentissage de notre propre robot .
Vous trouverez tout les codes et données sur notre GitLab .
NOS RECHERCHES
L'évolution de notre projet

Grace à notre sérieux dans le travail , on a pu dans la première semaine :
- faire des push et des commit tout les jours
- au niveau individuel : terminer tout les taches : serpent , animation , X_fenetre
- au niveau collectif : achever le jeu de vie et le chef d'oeuvre avec une bonne gestion d'évènement
- création du site : avec une mise à jour régulière de l'avancement
-terminer la phase 2 : création d'un jeu avec l'implémentation de l'apprentissage par renforcement en utilisant
le Q_LEARNING
