چکیده

محققان دانشگاه MIT روش novelای برای آموزش مدل‌های زبانی بزرگ (LLM) توسعه داده‌اند که دقت استدلال منطقی را به طور قابل توجهی بهبود می‌بخشد. این روش که “Chain-of-Thought با بازخورد ساختاریافته” نام دارد، به مدل اجازه می‌دهد تا مراحل استدلال خود را اصلاح کند.

نکات کلیدی

  • ۴۰٪ بهبود دقت در تست‌های استدلال منطقی چندمرحله‌ای
  • کاهش خطاهای استدلالی تا ۶۰٪ نسبت به روش‌های قبلی
  • قابلیت تعمیم به مدل‌های مختلف بدون نیاز به تغییر معماری
  • منبع باز بودن کد و داده‌های آموزش

روش جدید

روش جدید از دو مرحله تشکیل شده است:

  1. تولید زنجیره استدلال: مدل یک زنجیره استدلال اولیه تولید می‌کند
  2. بازخورد ساختاریافته: یک مدل ارزیاب به صورت خودکار هر گام استدلال را بررسی و بازخورد می‌دهد

این چرخه چند بار تکرار می‌شود تا مدل بتواند استدلال خود را به تدریج بهبود بخشد.

کاربردهای عملی

  • دستیارهای برنامه‌نویسی با دقت بالاتر
  • سیستم‌های تحلیل داده
  • ربات‌های مکالمه پیشرفته
  • ابزارهای آموزشی هوشمند

این صفحه یک خلاصه و تفسیر گردآوری‌شده بر اساس گزارش اصلی از TechCrunch است. برای مطالعه متن کامل، به منبع اصلی مراجعه کنید.