وبلاگ

تئوری ذهن در کنار مدل‌های زبانی بزرگ: ذهن‌های فرضی برای وظایف پیشرفته چندعاملی

تئوری ذهن در کنار مدل‌های زبانی بزرگ: ذهن‌های فرضی برای وظایف پیشرفته چندعاملی

در چشم‌انداز همیشه در حال تحول هوش مصنوعی (AI)، چالش ایجاد سیستم‌هایی که بتوانند به طور موثر در محیط‌های پویا همکاری کنند، بسیار مهم است. یادگیری تقویتی چندعاملی (MARL) با هدف آموزش عامل‌ها برای تعامل و سازگاری در چنین محیط‌هایی، یک تمرکز اصلی بوده است. با این حال، این روش‌ها اغلب با پیچیدگی و مسائل سازگاری، به ویژه هنگام مواجهه با موقعیت‌های جدید یا عامل‌های دیگر، دست و پنجه نرم می‌کنند. در پاسخ به این چالش‌ها، این مقاله از استنفورد رویکرد جدیدی به نام مدل «ذهن‌های فرضی» را معرفی می‌کند. این مدل نوآورانه با استفاده از مدل‌های زبانی بزرگ (LLM) برای بهبود عملکرد در محیط‌های چندعاملی با شبیه‌سازی نحوه درک و پیش‌بینی رفتار دیگران توسط انسان‌ها، عملکرد را ارتقا می‌دهد.

روش‌های سنتی MARL اغلب در برخورد با محیط‌های در حال تغییر مشکل دارند، زیرا اقدامات یک عامل می‌توانند به طور غیرقابل پیش‌بینی بر دیگران تأثیر بگذارند. این بی‌ثباتی یادگیری و سازگاری را چالش‌برانگیز می‌کند. راه‌حل‌های موجود، مانند استفاده از LLM برای هدایت عامل‌ها، برخی از امیدها را در درک اهداف و برنامه‌ریزی نشان داده‌اند، اما هنوز به توانایی ظریف برای تعامل موثر با چندین عامل نیاز دارند.

مدل ذهن‌های فرضی یک راه حل امیدوارکننده برای این مسائل ارائه می‌دهد. این مدل یک ماژول تئوری ذهن (ToM) را در یک چارچوب مبتنی بر LLM ادغام می‌کند. این ماژول ToM به عامل اجازه می‌دهد تا با استفاده از زبان طبیعی، فرضیه‌هایی درباره استراتژی‌ها، اهداف و رفتارهای عامل‌های دیگر ایجاد و به‌روزرسانی کند. با اصلاح مداوم این فرضیه‌ها بر اساس مشاهدات جدید، مدل استراتژی‌های خود را در زمان واقعی تطبیق می‌دهد. این سازگاری در زمان واقعی یک ویژگی کلیدی است که منجر به بهبود عملکرد در سناریوهای همکاری، رقابت و انگیزه‌های مختلط می‌شود و اطمینان از عملی بودن و اثربخشی مدل را فراهم می‌کند.

مدل ذهن‌های فرضی بر اساس چندین مؤلفه کلیدی از جمله ادراک، حافظه و ماژول‌های برنامه‌ریزی سلسله مراتبی ساخته شده است. مرکز عملکرد آن ماژول ToM است که مجموعه‌ای از فرضیه‌های زبان طبیعی در مورد عامل‌های دیگر را حفظ می‌کند. LLM این فرضیه‌ها را بر اساس حافظه عامل از مشاهدات گذشته و فرضیه‌های قبلی با ارزش بالا تولید می‌کند. این فرآیند به مدل اجازه می‌دهد تا درک خود را از استراتژی‌های عامل‌های دیگر به صورت تکراری اصلاح کند.

این فرآیند به شرح زیر عمل می‌کند: عامل اقدامات عامل‌های دیگر را مشاهده می‌کند و فرضیه‌های اولیه‌ای درباره استراتژی‌های آن‌ها ایجاد می‌کند. این فرضیه‌ها بر اساس میزان پیش‌بینی رفتارهای آینده توسط آن‌ها ارزیابی می‌شوند. یک سیستم امتیازدهی دقیق‌ترین فرضیه‌ها را شناسایی می‌کند که در طول زمان تقویت و اصلاح می‌شوند. این تضمین می‌کند که مدل به طور مداوم سازگار می‌شود و درک خود را از عامل‌های دیگر بهبود می‌بخشد.

سپس برنامه‌های سطح بالا بر اساس این فرضیه‌های اصلاح‌شده شرطی می‌شوند. رویکرد برنامه‌ریزی سلسله مراتبی مدل این برنامه‌ها را به زیر اهداف کوچکتر و عملی تبدیل می‌کند و استراتژی کلی عامل را هدایت می‌کند. این ساختار به مدل ذهن‌های فرضی اجازه می‌دهد تا محیط‌های پیچیده را موثرتر از روش‌های سنتی MARL پیمایش کند.

برای ارزیابی اثربخشی ذهن‌های فرضی، محققان از معیار MARL Melting Pot استفاده کردند که مجموعه‌ای جامع از آزمایش‌ها برای ارزیابی عملکرد عامل در سناریوهای تعاملی مختلف طراحی شده است. این موارد از کارهای هماهنگی ساده تا بازی‌های استراتژیک پیچیده که نیازمند همکاری، رقابت و سازگاری هستند، متغیر بود. ذهن‌های فرضی در سازگاری، تعمیم و عمق استراتژیک نسبت به روش‌های سنتی MARL و سایر عامل‌های مبتنی بر LLM عملکرد بهتری داشتند. در سناریوهای رقابتی، مدل به طور پویا فرضیه‌های خود را در مورد استراتژی‌های حریفان به‌روزرسانی کرد و حرکات آن‌ها را چندین مرحله جلوتر پیش‌بینی کرد و به آن اجازه داد تا با پیش‌بینی استراتژیک برتر رقبای خود را شکست دهد.

این مدل همچنین در تعمیم به عامل‌ها و محیط‌های جدید، یک چالش برای رویکردهای سنتی MARL، برتری داشت. هنگام مواجهه با عامل‌های ناشناخته، ذهن‌های فرضی به سرعت فرضیه‌های دقیق تشکیل دادند و رفتار خود را بدون آموزش گسترده تنظیم کردند. ماژول تئوری ذهن قوی به برنامه‌ریزی سلسله مراتبی اجازه داد تا مدل بتواند نیازها و اقدامات شرکا را به طور موثر پیش‌بینی کند.

بازگشت به لیست

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *