فهرست مطالب
1- مقدمه
2- مفاهيم و تعاريف اوليه
2-1- تعريف عامل
2-2- ويژگيهاي محيط
2-3- تعريف سيستم چندعامله
2-4- مدلهاي مارکوف در سيستمهاي چندعامله برای هماهنگی
2-4-1- فرآيند تصميمگيري ماركف چندعامله (MMDP)
2-4-2- مسائل تصميمگيري ماركف قابل مشاهده جزئي (POMDP)
2-4-2-1- چهارچوب POMDP
2-4-2-1- 1-تشریح مدل
2-4-2-1- 2-فضای حالت S
2-4-2-1-3- فضای عمل A
2-4-2-1-4- تابع انتقال T
2-4-2-1-5- فضای مشاهده Z
2-4-2-1-6- تابع پاداش R
2-4-2-1-7- افق H و فاکتور کاهش ϒ
2-4-3- Multi-agent POMDP
2-4-4- فرآيند تصميمگيري تيمي چندعامله (MTDP)
2-4-5- بازيهاي غيرقطعي قابل مشاهده جزئي (POSG)
2-4-6- مسائل ارضاء محدوديت توزيعشده (DCSP)
2-4- خلاصه
3- زمينههاي کاربردي
3-1- هماهنگی چند عامل در مزایده
3-2- استفاده از POMDP در سیستم های چند عامل در زمینه مسیریابی شبکه
3-3- - یادگیری فعال در POMDP
3-4- فوتبال رباتها
3-5- هدايت مبتني بر همكاري
3-6- کنترل ترافيک هوايي
3-7- مسيريابي و مديريت شبکه
3-8- خلاصه
4- هماهنگي در سيستمهاي چندعامله
4-1- روشهاي ايجاد هماهنگي در سيستمهاي چندعامله
4-2- خلاصه
5- ايجاد هماهنگي در سيستمهاي چندعامله با استفاده از تکنيکهاي يادگيري
5-1- يادگيري تقويتي
5-1-1- يادگيري تقويتي تكعامله
5-1-1-1- يادگيري Q
5-1-2- يادگيري تقويتي چندعامله
5-1-2-1- يادگيري مستقل
5-1-2-2- يادگيري عمل گروهي
5-1-3- انواع الگوريتمهاي يادگيري تقويتي در سيستمهاي چندعامله
5-1-3-1- الگوريتم يادگيري Minimax-Q
5-1-3-2- الگوريتم يادگيري Nash-Q
5-1-3-3- الگوريتم يادگيري Friend-or-Foe Q (FFQ)
5-1-3-4- الگوريتم يادگيري rQ
5-2- اتوماتاي سلولي، اتوماتاي يادگير و اتوماتاي يادگير سلولي
5-2-1- اتوماتاي سلولي
5-2-2- اتوماتاي يادگير
5-2-3- اتوماتاي يادگير سلولي
5-2-4- فعاليتهاي انجامشده در زمينه استفاده از اتوماتاي يادگير در سيستمهاي چندعامله
5-3- خلاصه
فهرست منابع
فهرست اشکال
شکل 1- ساختار عامل]1[
شکل 2- ساختار سيستم چندعامله ]1[
شکل 3- رده بندی مدلهای مختلف مارکوف بر حسب قابلیت مشاهده و ارتباط
شکل 4- مدل POMDP
شکل 5- ارتباط بین مدل های مختلف با DEC-POMDP
شکل 6- مدل عامل ها در DCSP
شکل 7- مدل يادگيري تقويتي
شکل8- مقادير (1) ، (2) و (3) خطمشي بهينه حاصل از هريك از آنها
شکل9- شبهكد محاسبه مقادير با استفاده از روش -LearningError! Bookmark not defined.
شکل 10- مدل يادگيري تقويتي چندعامله
شکل 11- لگوريتم يادگيري Minimax-Q
شکل 12- الگوريتم يادگيري Nash-Q
شکل 13- الگوريتم يادگيري rQ
شکل 14- ارتباط بين اتوماتاي يادگير و محيط
شکل 15- همسايگي ون نيومن ، مور ، اسميت و كول
شکل 16- قانون 54