چکیده
محققان دانشگاه MIT روش novelای برای آموزش مدلهای زبانی بزرگ (LLM) توسعه دادهاند که دقت استدلال منطقی را به طور قابل توجهی بهبود میبخشد. این روش که “Chain-of-Thought با بازخورد ساختاریافته” نام دارد، به مدل اجازه میدهد تا مراحل استدلال خود را اصلاح کند.
نکات کلیدی
- ۴۰٪ بهبود دقت در تستهای استدلال منطقی چندمرحلهای
- کاهش خطاهای استدلالی تا ۶۰٪ نسبت به روشهای قبلی
- قابلیت تعمیم به مدلهای مختلف بدون نیاز به تغییر معماری
- منبع باز بودن کد و دادههای آموزش
روش جدید
روش جدید از دو مرحله تشکیل شده است:
- تولید زنجیره استدلال: مدل یک زنجیره استدلال اولیه تولید میکند
- بازخورد ساختاریافته: یک مدل ارزیاب به صورت خودکار هر گام استدلال را بررسی و بازخورد میدهد
این چرخه چند بار تکرار میشود تا مدل بتواند استدلال خود را به تدریج بهبود بخشد.
کاربردهای عملی
- دستیارهای برنامهنویسی با دقت بالاتر
- سیستمهای تحلیل داده
- رباتهای مکالمه پیشرفته
- ابزارهای آموزشی هوشمند
این صفحه یک خلاصه و تفسیر گردآوریشده بر اساس گزارش اصلی از TechCrunch است. برای مطالعه متن کامل، به منبع اصلی مراجعه کنید.