شکست مدل هوش مصنوعی Maverick متا در بنچمارک‌های مستقل از رقبایش

مدل جدید متا که با وعده‌ی تحول در مکالمه با هوش مصنوعی معرفی شد، در آزمونی بی‌طرفانه جایگاه پایین‌تری نسبت‌ به رقبایش کسب کرد.

مدل هوش مصنوعی Maverick متا که به‌عنوان نسخه‌ای جدید و آزمایشی از خانواده‌ی Llama 4 معرفی شد، در کانون توجه قرار گرفت، اما نه به دلیلی که متا انتظار داشت. اوایل این هفته مشخص شد که متا برای کسب امتیاز بالا در بنچمارک LM Arena، از نسخه‌ی آزمایشی و منتشرنشده‌ی مدل Maverick استفاده کرده است. این اقدام LM Arena را به عذرخواهی رسمی و تغییر سیاست‌هایش وادار کرد تا امتیازدهی را بر اساس نسخه‌ی اصلی و دست‌نخورده‌ی مدل‌های هوش مصنوعی ثبت کند.

متا امکان استفاده کودکان از شبکه اجتماعی سه‌بعدی Horizon Worlds را فراهم ساخت

به گفته‌ی ‌Piɡeσn، نسخه‌ی رسمی مدل جدید متا با نام کامل Llama-4-Maverick-17B-128E-Instruct، در رده‌ای پایین‌تر از مدل‌های رقبا ازجمله GPT-4o ،Claude 3.5 Sonnet و جمینای ۱٫۵ پرو قرار گرفت؛ مدل‌هایی که بسیاری از آن‌ها چند ماه قبل معرفی شده‌اند.

امتیاز مدل های هوش مصنوعی در معیار LMArena

اما چرا Maverick اصلی چنین عملکرد ضعیفی داشت؟ به‌گفته‌ی متا، نسخه‌ی آزمایشی مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته می‌شود، برای مکالمه بهینه‌سازی شده بود. این بهینه‌سازی‌ها ظاهراً در LM Arena مؤثر واقع شدند، زیرا در این پلتفرم انسان‌ها پاسخ مدل‌ها را مقایسه و بهترین را انتخاب می‌کنند.

پلتفرم LM Arena به دلایل مختلف هرگز معیار مطمئنی برای سنجش عملکرد واقعی مدل‌های هوش مصنوعی محسوب نمی‌شود. بهینه‌سازی مدل‌های هوش مصنوعی صرفاً برای موفقیت در بنچمارک خاص، علاوه‌بر اینکه گمراه‌کننده است، کار توسعه‌دهندگان را برای درک دقیق عملکرد مدل در سناریوهای مختلف دشوار می‌کند.

بیش‌از ۴۰درصد از شرکت‌های ژاپنی تمایلی به استفاده از هوش مصنوعی ندارند

این مقاله چقدر برای شما مفید بود؟