مدل o3 OpenAI در تست Mensa نروژ نمره ۱۳۶ کسب کرد و از ۹۸٪ جمعیت انسانی پیشی گرفت.
مدل زبان جدید “o3” شرکت OpenAI دز یک آزمون هوش عمومی Mensa نروژ نمره IQ برابر با ۱۳۶ کسب کرد و برای اولین بار از حد مورد نیاز برای عضویت در شعبه Mensa این کشور فراتر رفت.
این نمره که از میانگین متحرک هفتباره محاسبه شده است، مدل را برتر از تقریباً ۹۸ درصد از جمعیت انسانی قرار میدهد، بر اساس توزیع IQ منحنی زنگوله استاندارد شده که در معیارگیری به کار رفته است.
این دستاورد که از طریق دادههای پلتفرم مستقل TrackingAI.org فاش شده است، الگوی مدلهای اختصاصی و بستهمنبع را که از نمونههای متنباز در ارزیابیهای شناختی کنترلشده پیشی میگیرند، تقویت میکند.
مدل “o3” این هفته منتشر شد و بخشی از مجموعه مدلهای زبان “o-series” است که اکثر رتبههای بالای ردهبندیها را در هر دو نوع آزمون ارزیابیشده توسط TrackingAI کسب کردهاند.
دو فرمت معیاری شامل یک “آزمون آفلاین” اختصاصی که توسط TrackingAI.org طراحی شده و یک آزمون عمومی موجود از Mensa نروژ بودند، که هر دو نسبت به میانگین انسان ۱۰۰ نمرهدهی شدند.
در حالی که “o3” در ارزیابی آفلاین نمره ۱۱۶ کسب کرد، این مدل با افزایش ۲۰ نمرهای در آزمون Mensa مواجه شد، که نشاندهنده یکی از سازگاریهای تقویتشده با ساختار آزمون دوم یا تناقضات مرتبط با داده مانند آشنایی با دستورات اولیه است.
آزمون Offline شامل ۱۰۰ سوال تشخیص الگو بود که طراحی شده برای جلوگیری از وقوع هر چیزی که ممکن است در دادههایی که برای آموزش مدلهای هوش مصنوعی مورد استفاده قرار گرفته، مشاهده شود.
هر دو ارزیاٌی نمره هر مدل را به عنوان میانگین هفت تکمیل اخیر گزارش میدهند، اما هیچگونه انحراف معیار یا فواصل اطمینان همراه با نمرات نهایی منتشر نشده است.
عدم شفافیت روششناختی، به ویژه در خصوص تحلیل استراتژیهای دستوری و تبدیل مقیاس نمره، تولیدپذیری و تفسیرپذیری را محدود میکند.
TrackingAI.org بیان میکند که دادههای خود را با استفاده از یک قالب پذیرهی استاندارد طراحی شده برای اطمینان از توافق کلی هوش مصنوعی حین کاهش ابهام تفسیری جمعآوری میکند.
هر مدل زبانی با بیانیهای همراه با چهار گزینه پاسخ دهندگی لیکرت استایل ارائه میشود: به شدت مخالف، مخالف، موافق، به شدت موافق، و موظف به انتخاب یکی و توجیه انتخاب خود در دو تا پنج جمله است.
پاسخها باید به وضوح قالببندی شوند، که معمولا در بند یا ستاره برجسته نشان داده میشوند. اگر مدلی از پاسخ خودداری کند، دستورالعمل تا ده بار تکرار میشود.
آخرین پاسخ موفق برای مقاصد نمرهدهی ثبت میشود و رویدادهای امتناع به صورت جداگانه یادداشت میشوند.
این روششناسی که از طریق تنظیمات مداوم در مدلهای مختلف اصلاح شده است، هدف دارد تا ثبات در ارزیابیهای تطبیقی ارائه دهد در حالی که عدم پاسخگویی به عنوان یک نقطه دادهای خود وارد مستندات میکند.
آزمون Mensa نروژ تفکیک بین مدلهای خطوط مقدم واقعی را اصلاح کرده است، با ۱۳۶ IQ o3 به وضوح پیشروی بالای نزدیکترین ورودی را نشان میدهد.
در مقابل، مدلهای محبوب دیگری همچون GPT-4o نمرهای به مراتب پایینتر کسب کردهاند و در Mensa به ۹۵ و در آفلاین به ۶۴ رسیدهاند، که حاکی از شکاف عملکردی بین انتشار اخیر “o3” و سایر مدلهای برتر است.
در بین ارسالهای منبع باز، بهترین رتبه متعلق به Llama 4 Maverick متا بود که ۱۰۶ IQ در Mensa و ۹۷ در معیار آفلاین کسب کرد.
اکثر ورودیهای دارای مجوز Apache در محدوده ۶۰-۹۰ قرار گرفتند، که حاکی از محدودیتهای فعلی معماریهای ساخته شده توسط جامعه در مقایسه با خطوط پژوهشی تحت حمایت شرکتی است.
به ویژه مدلهایی که به طور خاص برای گنجاندن قابلیتهای ورودی تصویری طراحی شدهاند، همچنان با نسخههای متنی خود عملکرد ضعیفتری داشتند. به طور مثال، “o1 Pro” اوپنایآی در تست آفلاین در تنظیمات متنی نمره ۱۰۷ کسب کرد اما در نسخه دارای قابلیت دید به ۹۷ نزول کرد.
این اختلاف در آزمون Mensa بارزتر بود، جایی که نسخه صرفا متنی به ۱۲۲ دست یافت در حالی که نسخه تصویری ۸۶ کسب کرد. این نشان میدهد که برخی از روشهای پیشآموزش چندوجهی ممکن است باعث کاراییهای استدلالی ناپایدار شوند که در حال حاضر بینتیجه باقی ماندهاند.
با این حال، “o3” همچنین میتواند با استاندارد بسیار بالایی تصاویر را تحلیل و تفسیر کند، بسیار بهتر از نسخههای پیشین خود، و این روند را شکسته است.
در نهایت، معیارهای IQ تنها یک دیدگاه جزئی به قابلیت استدلال مدلها میدهند، با اینکه تطبیق الگوهای کوتاه متن تنها بینش محدود به رفتارهای شناختی گستردهتری مانند استدلال چند دور، برنامهریزی، یا دقت واقعی ارائه میدهد.
علاوه بر این، شرایط آزمونگیری ماشینی، همچون دسترسی فوری به دستورات کامل و سرعت پردازش نامحدود، مقایسه با شناخت انسانی را بیش از پیش مبهم میکند.
درجهای که نمرههای IQ بالا در آزمونهای ساختار یافته به عملکرد واقعی مدلهای زبان تبدیل میشود، همچنان نامشخص باقی میماند.
همانطور که پژوهشگران TrackingAI.org اذعان دارند، حتی تلاشهای آنها برای جلوگیری از نشت دادههای آموزشی به طور کامل احتمال قرار گرفتن غیرمستقیم یا تعمیم قالب را بعید نمیکند، به خصوص با توجه به کمبود شفافیت اطراف مجموعه دادههای آموزشی و روشهای تمریندهی برای مدلهای اختصاصی.
سازمانهایی مانند LM-Eval، GPTZero، و MLCommons به طور فزایندهای برای ارائه ارزیابیهای سوم شخص مورد اعتماد قرار میگیرند زیرا توسعهدهندگان مدل همچنان محدودیتهایی درباره افشای معماریهای داخلی و روشهای آموزشی اعمال میکنند.
این “ارزیابیهای سایه” در حال شکلدهی به هنجارهای رو به ظهور آزمونگیری مدلهای زبان بزرگ هستند، به ویژه به دلیل افشاهای غیر شفاف و غالباً پراکنده از شرکتهای پیشرو در زمینه هوش مصنوعی.
سری “o” اوپنایآی در این جریان کاری آزمونگیری یک موضع فرماندهی دارد، اگرچه پیامدهای بلندمدت برای هوش عمومی، رفتار عاملی، یا استقرار اخلاقی همچنان برای رسیدگی در آزمونهای مرتبط با زمینه مطرح باقی ماندهاند. نمرههای IQ، در حالی که تحریکآمیزند، بیشتر به عنوان نشانههایی از مهارتهای کوتاه متن مورد استفاده قرار میگیرند تا شاخص قطعی از قابلیتهای گستردهتر.
بر اساس TrackingAI.org، تجزیه و تحلیل اضافی بر اساس اختلافات عملکردی مبتنی بر قالب و قابلیت اطمینان ارزیابی برای روشن کردن اعتبار معیارهای فعلی لازم خواهد بود.
با تسریع انتشار مدلها و پیشرفتهتر شدن آزمونهای مستقل، معیارهای تطبیقی ممکن است همچنان در هر دو قالب و تفسیر تکامل یابند.
April 17, 2025 at 03:08:59 PM