مدل o3 OpenAI در تست Mensa نروژ نمره ۱۳۶ کسب کرد و از ۹۸٪ جمعیت انسانی پیشی گرفت.

مدل زبان جدید “o3” شرکت OpenAI دز یک آزمون هوش عمومی Mensa نروژ نمره IQ برابر با ۱۳۶ کسب کرد و برای اولین بار از حد مورد نیاز برای عضویت در شعبه Mensa این کشور فراتر رفت.


این نمره که از میانگین متحرک هفت‌باره محاسبه شده است، مدل را برتر از تقریباً ۹۸ درصد از جمعیت انسانی قرار می‌دهد، بر اساس توزیع IQ منحنی زنگوله استاندارد شده که در معیارگیری به کار رفته است.


این دستاورد که از طریق داده‌های پلتفرم مستقل TrackingAI.org فاش شده است، الگوی مدل‌های اختصاصی و بسته‌منبع را که از نمونه‌های متن‌باز در ارزیابی‌های شناختی کنترل‌شده پیشی می‌گیرند، تقویت می‌کند.


مدل “o3” این هفته منتشر شد و بخشی از مجموعه مدل‌های زبان “o-series” است که اکثر رتبه‌های بالای رده‌بندی‌ها را در هر دو نوع آزمون ارزیابی‌شده توسط TrackingAI کسب کرده‌اند.


دو فرمت معیاری شامل یک “آزمون آفلاین” اختصاصی که توسط TrackingAI.org طراحی شده و یک آزمون عمومی موجود از Mensa نروژ بودند، که هر دو نسبت به میانگین انسان ۱۰۰ نمره‌دهی شدند.


در حالی که “o3” در ارزیابی آفلاین نمره ۱۱۶ کسب کرد، این مدل با افزایش ۲۰ نمره‌ای در آزمون Mensa مواجه شد، که نشان‌دهنده یکی از سازگاری‌های تقویت‌ش‌ده با ساختار آزمون دوم یا تناقضات مرتبط با داده مانند آشنایی با دستورات اولیه است.


آزمون Offline شامل ۱۰۰ سوال تشخیص الگو بود که طراحی شده برای جلوگیری از وقوع هر چیزی که ممکن است در داده‌هایی که برای آموزش مدل‌های هوش مصنوعی مورد استفاده قرار گرفته، مشاهده شود.


هر دو ارزیاٌی نمره هر مدل را به عنوان میانگین هفت تکمیل اخیر گزارش می‌دهند، اما هیچ‌گونه انحراف معیار یا فواصل اطمینان همراه با نمرات نهایی منتشر نشده است.


عدم شفافیت روش‌شناختی، به ویژه در خصوص تحلیل استراتژی‌های دستوری و تبدیل مقیاس نمره، تولیدپذیری و تفسیرپذیری را محدود می‌کند.


TrackingAI.org بیان می‌کند که داده‌های خود را با استفاده از یک قالب پذیرهی استاندارد طراحی شده برای اطمینان از توافق کلی هوش مصنوعی حین کاهش ابهام تفسیری جمع‌آوری می‌کند.


هر مدل زبانی با بیانیه‌ای همراه با چهار گزینه پاسخ دهندگی لیکرت استایل ارائه می‌شود: به شدت مخالف، مخالف، موافق، به شدت موافق، و موظف به انتخاب یکی و توجیه انتخاب خود در دو تا پنج جمله است.


پاسخ‌ها باید به وضوح قالب‌بندی شوند، که معمولا در بند یا ستاره برجسته نشان داده می‌شوند. اگر مدلی از پاسخ خودداری کند، دستورالعمل تا ده بار تکرار می‌شود.


آخرین پاسخ موفق برای مقاصد نمره‌دهی ثبت می‌شود و رویدادهای امتناع به صورت جداگانه یادداشت می‌شوند.


این روش‌شناسی که از طریق تنظیمات مداوم در مدل‌های مختلف اصلاح شده است، هدف دارد تا ثبات در ارزیابی‌های تطبیقی ارائه دهد در حالی که عدم پاسخ‌گویی به عنوان یک نقطه داده‌ای خود وارد مستندات می‌کند.


آزمون Mensa نروژ تفکیک بین مدل‌های خطوط مقدم واقعی را اصلاح کرده است، با ۱۳۶ IQ o3 به وضوح پیشروی بالای نزدیک‌ترین ورودی را نشان می‌دهد.


در مقابل، مدل‌های محبوب دیگری همچون GPT-4o نمره‌ای به مراتب پایین‌تر کسب کرده‌اند و در Mensa به ۹۵ و در آفلاین به ۶۴ رسیده‌اند، که حاکی از شکاف عملکردی بین انتشار اخیر “o3” و سایر مدل‌های برتر است.


در بین ارسال‌های منبع باز، بهترین رتبه متعلق به Llama 4 Maverick متا بود که ۱۰۶ IQ در Mensa و ۹۷ در معیار آفلاین کسب کرد.


اکثر ورودی‌های دارای مجوز Apache در محدوده ۶۰-۹۰ قرار گرفتند، که حاکی از محدودیت‌های فعلی معماری‌های ساخته شده توسط جامعه در مقایسه با خطوط پژوهشی تحت حمایت شرکتی است.


به ویژه مدل‌هایی که به طور خاص برای گنجاندن قابلیت‌های ورودی تصویری طراحی شده‌اند، همچنان با نسخه‌های متنی خود عملکرد ضعیف‌تری داشتند. به طور مثال، “o1 Pro” اوپن‌ای‌آی در تست آفلاین در تنظیمات متنی نمره ۱۰۷ کسب کرد اما در نسخه دارای قابلیت دید به ۹۷ نزول کرد.


این اختلاف در آزمون Mensa بارز‌تر بود، جایی که نسخه صرفا متنی به ۱۲۲ دست یافت در حالی که نسخه تصویری ۸۶ کسب کرد. این نشان می‌دهد که برخی از روش‌های پیش‌آموزش چندوجهی ممکن است باعث کارایی‌های استدلالی ناپایدار شوند که در حال حاضر بی‌نتیجه باقی مانده‌اند.


با این حال، “o3” همچنین می‌تواند با استاندارد بسیار بالایی تصاویر را تحلیل و تفسیر کند، بسیار بهتر از نسخه‌های پیشین خود، و این روند را شکسته است.


در نهایت، معیارهای IQ تنها یک دیدگاه جزئی به قابلیت استدلال مدل‌ها می‌دهند، با اینکه تطبیق الگوهای کوتاه متن تنها بینش محدود به رفتارهای شناختی گسترده‌تری مانند استدلال چند دور، برنامه‌ریزی، یا دقت واقعی ارائه می‌دهد.


علاوه بر این، شرایط آزمون‌گیری ماشینی، همچون دسترسی فوری به دستورات کامل و سرعت پردازش نامحدود، مقایسه با شناخت انسانی را بیش از پیش مبهم می‌کند.


درجه‌ای که نمره‌های IQ بالا در آزمون‌های ساختار یافته به عملکرد واقعی مدل‌های زبان تبدیل می‌شود، همچنان نامشخص باقی می‌ماند.


همان‌طور که پژوهشگران TrackingAI.org اذعان دارند، حتی تلاش‌های آن‌ها برای جلوگیری از نشت داده‌های آموزشی به طور کامل احتمال قرار گرفتن غیرمستقیم یا تعمیم قالب را بعید نمی‌کند، به خصوص با توجه به کمبود شفافیت اطراف مجموعه داده‌های آموزشی و روش‌های تمرین‌دهی برای مدل‌های اختصاصی.


سازمان‌هایی مانند LM-Eval، GPTZero، و MLCommons به طور فزاینده‌ای برای ارائه ارزیابی‌های سوم شخص مورد اعتماد قرار می‌گیرند زیرا توسعه‌دهندگان مدل همچنان محدودیت‌هایی درباره افشای معماری‌های داخلی و روش‌های آموزشی اعمال می‌کنند.


این “ارزیابی‌های سایه” در حال شکل‌دهی به هنجارهای رو به ظهور آزمون‌گیری مدل‌های زبان بزرگ هستند، به ویژه به دلیل افشا‌های غیر شفاف و غالباً پراکنده از شرکت‌های پیشرو در زمینه هوش مصنوعی.


سری “o” اوپن‌ای‌آی در این جریان کاری آزمون‌گیری یک موضع فرماندهی دارد، اگرچه پیامدهای بلندمدت برای هوش عمومی، رفتار عاملی، یا استقرار اخلاقی همچنان برای رسیدگی در آزمون‌های مرتبط با زمینه مطرح باقی مانده‌اند. نمره‌های IQ، در حالی که تحریک‌آمیزند، بیشتر به عنوان نشانه‌هایی از مهارت‌های کوتاه متن مورد استفاده قرار می‌گیرند تا شاخص قطعی از قابلیت‌های گسترده‌تر.


بر اساس TrackingAI.org، تجزیه و تحلیل اضافی بر اساس اختلافات عملکردی مبتنی بر قالب و قابلیت اطمینان ارزیابی برای روشن کردن اعتبار معیارهای فعلی لازم خواهد بود.


با تسریع انتشار مدل‌ها و پیشرفته‌تر شدن آزمون‌های مستقل، معیارهای تطبیقی ممکن است همچنان در هر دو قالب و تفسیر تکامل یابند.


April 17, 2025 at 03:08:59 PM