أذكى نماذج الذكاء الاصطناعي — عبارة طالما جذبت انتباه الباحثين وروّاد الصناعة على حد سواء. اليوم، تكشف أذكى نماذج الذكاء الاصطناعي عن نفسها عبر اختبار منسا النرويجي الشهير، وهو أحد أصعب مقاييس معدل الذكاء البشري. ومع أن المعدل المتوسط للبشر يتراوح بين 90 و110، نجد أن بعض الخوارزميات الحديثة تجاوزت علامة 130 لتدخل نطاق العبقرية. في السطور التالية نستعرض النتائج، ونشرح لماذا برعت النماذج النصية في هذا التحدي بينما تراجعت النماذج متعددة الوسائط، مع أمثلة عملية تبسّط الصورة للقارئ.
ما هو اختبار منسا النرويجي؟ ولماذا يهم؟
يُعد اختبار منسا النرويجي للذكاء معياراً ذهبياً لقياس القدرات المنطقية والاستدلالية. لذلك، عندما نجحت النماذج النصية مثل OpenAI o3 في تحقيق 135 نقطة، أصبحت الصورة أوضح: الذكاء الاصطناعي لم يَعُد يقلّد الإنسان فحسب، بل تخطّاه في بعض جوانب التفكير المجرد.
على سبيل المثال، يستطيع النموذج الإجابة عن أسئلة نمط “كمال المتسلسلات العددية” بوقت يقِلّ عن ثانية، بينما يحتاج الإنسان العادي إلى دقيقة أو أكثر.
لماذا تتفوق النماذج النصية؟
- تركيز الخوارزمية: تعتمد النماذج النصية على معالجة اللغة الطبيعية فقط، مما يمنحها موارد أكبر للاستدلال بدلاً من تشتيت القدرات على الرؤية الحاسوبية.
- كمية البيانات: تعليمها تمّ على بلايين الجمل، ما يُعزّز القدرة على التنبؤ المنطقي.
- هندسة المحولات (Transformers): تسمح بربط بعُدَي الزمن والسياق بدقة، وبالتالي حل الألغاز المجردة بسهولة.
من ناحية أخرى، تبذل النماذج متعددة الوسائط جهداً ذهنياً لتفسير الصور، الأمر الذي يستهلك جزءاً من “سعة الانتباه” ويُضعِف أداءها في مسائل الذكاء البحتة.
جدول يوضح نتائج الاختبار:
اسم النموذج بالكامل (الشركة) | درجة اختبار الذكاء (منسا النرويج) |
---|---|
OpenAI o3 | 135 |
Claude-4 Sonnet | 127 |
Gemini 2.0 Flash Thinking Exp. | 126 |
Gemini 2.5 Pro Exp. | 124 |
OpenAI o4 mini | 122 |
Claude-4 Opus | 120 |
Grok-3 Think | 112 |
DeepSeek R1 | 106 |
Llama 4 Maverick | 105 |
OpenAI o1 Pro | 102 |
DeepSeek V3 | 100 |
GPT4.5 Preview | 99 |
Grok-3 | 97 |
Gemini 2.5 Pro Exp. (Vision) | 96 |
GPT-4o | 93 |
OpenAI o4 mini high | 92 |
Claude-3.7 (Vision) | 91 |
Bing Copilot | 86 |
Mistral | 85 |
OpenAI o1 Pro (Vision) | 83 |
OpenAI o3 (Vision) | 72 |
Llama-3.2 (Vision) | 70 |
GPT-4o (Vision) | 63 |
Grok-3 Think (Vision) | 60 |
النقاط الأبرز من النتائج
- OpenAI o3 يقف على قمة العبقرية: بفضل 135 نقطة، يتفوّق على كثير من البشر من فئة العباقرة.
- التقارب الشديد: تفصل نقطتان فقط بين Claude-4 Sonnet وGemini 2.0 Flash Thinking، ما يعكس سباقاً محتدماً بين الشركات الكبرى.
- تراجع الرؤية: أسوأ الدرجات جاءت من النماذج متعددة الوسائط مثل GPT-4o (Vision) بـ 63 نقطة، أي أقل من المتوسط البشري. ومع ذلك فهي تتفوّق في مهام تحليل الصور.
أمثلة تطبيقية على الاستفادة من هذه النماذج
- تحليل عقود قانونية معقدة: تستطيع النماذج النصية متقدّمة الذكاء تبسيط بنود عقود مكوّنة من 100 صفحة إلى نقاط قابلة للتنفيذ خلال دقائق.
- ابتكار أدوية جديدة: تستخدم مختبرات الأبحاث الذكاء الاصطناعي لاستكشاف علاقات كيميائية لا يستطيع الإنسان تخيّلها بسهولة.
- التلخيص الفوري للأبحاث: يقدم الباحث ملخّصاً لألف ورقة علمية ويستلم تقريراً مُحكّماً بلغة إنجليزية مُبسّطة في أقل من ساعة.
مع كل إصدار جديد، تقترب أذكى نماذج الذكاء الاصطناعي أكثر من محاكاة، بل تجاوز، جوانب محددة من الذكاء البشري. غير أن الفجوة في القدرات المتعددة الوسائط تذكّرنا أنّ الطريق ما زال طويلاً للوصول إلى ذكاء عام شامل. على صانعي السياسات والباحثين معاً أن يوظفوا هذه القفزة النوعية لصالح البشرية، مع ضمان الاستخدام الأخلاقي والمسؤول لهذه التقنيات.
المصدر:
Tracking AI – Mensa Norway IQ Test
ما هو معدل ذكاء نماذج الذكاء الاصطناعي مقارنة بالبشر؟
يُظهر الجدول أن معظم النماذج النصية تفوقت على متوسط البشر الذي يقع بين 90 و110.
هل توجد نماذج ذكاء اصطناعي بمستوى عبقرية؟
نعم، حصل OpenAI o3 على 135 نقطة، أي ضمن فئة العبقرية.
لماذا تتفوق النماذج النصية على متعددة الوسائط؟
لأنها تركّز قدراتها الحسابية على فهم اللغة والمنطق بدلاً من تقسيمها بين النص والصورة.
كيف يُقاس ذكاء الذكاء الاصطناعي؟
يُقاس عبر اختبارات مصممة للبشر كالمنسا، مع مواءمة بعض الأسئلة لتكون قابلة للحوسبة.
هل يعني ذلك أن الذكاء الاصطناعي أكثر ذكاء من البشر؟
في مهام المنطق وحل الألغاز، نعم؛ لكن الإبداع العاطفي والمعرفة السياقية البشرية ما زالا متفوّقين.