top of page

SITE OFFICIEL DE
PROJET :
APPRENTISSAGE PAR RENFORCEMENT

travail.jpg
INTERFACE.png

À PROPOS DE NOUS

élèves ingénieurs en école d'informatique

On est des étudiants en ISIMA à Aubière. On passe ces deux semaines de fin de juin à faire un projet en apprentissage par renforcement  . Cette semaine nous a permis de bien se lancer  dans ce projets et bien connaitre la chaine de Markov ; qu'on a implémenté dans le chef d'œuvre  .

Vous trouverez le lien vers notre Gitlab pour voir le code si vous voulez

  Quelques notes 

Fact_app0_1.png

La representation de nobres d'action en fontion de numero d'épisodes , avec un facteur d'apprentissage qui vaut 0.1

Fact_app0_5.png

La representation de nobres d'action en fontion de numero d'épisodes , avec un facteur d'apprentissage qui vaut 0.5

Fact_app1.png

La representation de nobres d'action en fontion de numero d'épisodes , avec un facteur d'apprentissage qui vaut 1

Comparaison :

Graphe_commun.png

             Remarque :

on constate que plus le facteur d'apprentissage  (L'un des paramètres de la relation de BELLMAN ; pour la mise à jour de la Q_table) est grand plus la courbe converge rapidement vers un nombre d'action stables et optimale. 

​

​

​

​

   ε-greedy :

Greedy.png

             Explication :

le parametre "epsilon" represente le taux de l'usage de l'aleatoire dans le choix de l'action suivante.

On a choisit que la variation de ce parametre soit suivant une suite definie par : a/ ( 2*(n + a) ) .

On remarque que plus a est grande plus l'apprentissage est lent (convergence vers 0 très lente) .

Et plus a est petit , l'apprentissage va etre rapide mais peu efficace .

C'est pour celà ,qu'on a choisit dans notre projet , a= 200 .

​

N.B :

Ces courbes ont été faite avec du code Python en utilisant des données de l'apprentissage de notre propre robot .

Vous trouverez tout les codes et données sur notre GitLab .

NOS RECHERCHES

L'évolution de notre projet

av.jpg

Grace à notre sérieux dans le travail , on a pu dans la première semaine :
- faire des push et des commit tout les jours 
- au niveau individuel : terminer tout les taches : serpent , animation , X_fenetre

- au niveau collectif : achever le jeu de vie et le chef d'oeuvre avec une bonne gestion d'évènement
- création du site : avec une mise à jour régulière de l'avancement
-terminer la phase 2 : création d'un jeu avec l'implémentation de l'apprentissage par renforcement en utilisant 
                               le Q_LEARNING
 

blue-envelope.jpg
Revenez bientôt
Dès que de nouveaux posts seront publiés, vous les verrez ici.
bottom of page