پاورپوینت یادگیری تقویتی و سیستم یادگیری تقویتی
دسته بندي :
عمومی »
گوناگون
در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
دو استراتژی اصلی برای اینکار وجود دارد
1. یکی استفاده از الگوریتم های ژنتیکی
2. و دیگری استفاده از روشهای آماری و dynamic programming
در RL روش دوم مد نظر است.
یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد
1. مثالهائی یادگیری بصورت زوج >ورودی خروجی< مطرح نمیشوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت میکند و به مرحله بعدی میرود.عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد.
2. تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم با عمل یادگیری بطور همزمان صورت میپذیرد.
همانگونه که گفته شد یک تفاوت اساسی میان یادگیری تقویتی و یادگیری با ناظردر این است که در یادگیری تقویتی عامل مجبور به جستجوی محیط است. در اینگونه مسائل با این سوال روبرو هستیم که وقتی که عامل در حالتی قرار میگیرد که پاداش مناسبی دریافت میکند آیا باید جستجو برای حالتهای بهتر را ادامه دهد و یا باید در همان مرحله متوقف شود.؟
تکنیکهای متفاوتی برای اینکار معرفی شده است از جمله
Dynamic Programming
Learning Automata
Adaptive control
-
محتوای فایل دانلودی:
در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
دو استراتژی اصلی برای اینکار وجود دارد
1. یکی استفاده از الگوریتم های ژنتیکی
2. و دیگری استفاده از روشهای آماری و dynamic programming
در RL روش دوم مد نظر است.
یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد
1. مثالهائی یادگیری بصورت زوج >ورودی خروجی< مطرح نمیشوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت میکند و به مرحله بعدی میرود.عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد.
2. تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم با عمل یادگیری بطور همزمان صورت میپذیرد.
همانگونه که گفته شد یک تفاوت اساسی میان یادگیری تقویتی و یادگیری با ناظردر این است که در یادگیری تقویتی عامل مجبور به جستجوی محیط است. در اینگونه مسائل با این سوال روبرو هستیم که وقتی که عامل در حالتی قرار میگیرد که پاداش مناسبی دریافت میکند آیا باید جستجو برای حالتهای بهتر را ادامه دهد و یا باید در همان مرحله متوقف شود.؟
تکنیکهای متفاوتی برای اینکار معرفی شده است از جمله
Dynamic Programming
Learning Automata
Adaptive control