شاومي تدخل عالم الروبوتات الكبيرة وتطلق Xiaomi-Robotics-0

خلال العامين الأخيرين، لم يعد سؤال الروبوتات: هل يمكنه التقاط جسم؟ بل صار: هل يفهم ما أريد—حتى لو طلبتُ بطريقة بشرية غامضة—ثم ينفّذ بسرعة وبسلاسة؟ هنا تحديدًا تحاول شاومي أن تحجز مقعدًا مبكرًا في سباق “الذكاء الفيزيائي”: نماذج لا تكتفي بالرؤية أو اللغة، بل تربطهما مباشرة بالحركة على أرض الواقع.

ومن هذه الزاوية أعلنت الشركة عن Xiaomi-Robotics-0 كنموذج Vision-Language-Action (VLA) مفتوح المصدر، بعدد 4.7 مليار معلمة، مع تركيز واضح على مشكلة تؤرق المجال: بطء الاستدلال الذي يصنع حركة متقطعة بدل أداء طبيعي.

ما هو Xiaomi-Robotics-0 ببساطة؟

تخيّله كـ “عقلين يعملان معًا”:

عقل يفهم الصور + اللغة: ما الذي أراه؟ ماذا طلبتَ؟ وما الخطوة المنطقية التالية؟
وعقل ثانٍ يحوّل هذا الفهم إلى حركات متسلسلة بسرعة تكفي لعدم كسر الإحساس الطبيعي بالحركة.

شاومي تصفه كنموذج VLA مصمم ليحقق أداءً قويًّا وفي الوقت نفسه تنفيذًا لحظيًّا سلسًا حتى على عتاد أقرب إلى “GPU استهلاكي” وليس مزرعة خوادم.

كيف تعمل المعمارية؟ ولماذا اختارت شاومي MoT؟

1) جزء الرؤية واللغة (VLM): “الدماغ”

هذا الجزء يتعامل مع الأشياء التي يفعلها البشر تلقائيًّا:
يفهم تعليمات مثل “اطوِ المنشفة” حتى لو كانت مختصرة أو غير دقيقة، ثم يربطها بما تلتقطه الكاميرا: موقع المنشفة، اتجاه الطي، ما الذي يجب تثبيته أولًا… إلخ.

2) خبير الحركة (Diffusion Transformer): “العضلات الذكية”

بدل توليد حركة واحدة ثم التوقف، النموذج ينتج ما يشبه حِزمًا من الأفعال (Action Chunks): تسلسل حركات متتابعة ومستمرة، وهو ما يساعد على سلاسة التنفيذ وتقليل “الرجّة” الناتجة عن التأخير بين خطوة استدلال وأخرى.

لماذا Mixture-of-Transformers (MoT)؟

اختيار MoT ينسجم مع فكرة “تقسيم المهام” وتوزيعها بكفاءة بدل جعل نموذج واحد يفعل كل شيء طوال الوقت. هذا النوع من المعماريات يُستخدم عادةً لتحسين الكفاءة وإتاحة “تخصصات” داخل النموذج مع تقليل كلفة الحساب مقارنةً بتوسيع نموذج واحد بشكل عشوائي.

التدريب: كيف تتجنب شاومي مشكلة “نسيان الفهم” أثناء تعلم الحركة؟

واحدة من أشهر مشاكل هذا المجال هي: عندما تدرب النموذج بقوة على بيانات الحركة، قد “ينسى” جزءًا من قدراته اللغوية/البصرية (catastrophic forgetting). شاومي تقول إنها تعاملت مع ذلك عبر تدريب مشترك يجمع:

بيانات مسارات روبوتية (حركة)
وبيانات رؤية/لغة (فهم)
ثم أضافت مرحلة “ما بعد التدريب” لتجهيز التنفيذ الفعلي على الروبوت بسلاسة أعلى.

ومن التقنيات اللافتة هنا:

تشغيل غير متزامن (Asynchronous execution) لتقليل الإحساس بزمن الاستجابة أثناء الحركة.
Λ-shaped attention mask لتقليل اعتماد النموذج على “اختصار” تقليد الحركة السابقة، وإجباره على الانتباه لما يراه الآن وما يُطلب منه الآن.

الأرقام التي لفتت الانتباه: ماذا حقق على الاختبارات؟

شاومي اختبرت Xiaomi-Robotics-0 على 3 معايير محاكاة شائعة في أبحاث الروبوتات:

LIBERO: متوسط نجاح 98.7%.
SimplerEnv: نتائج قوية في إعدادات مختلفة (مثل visual matching وvisual aggregation) مع نسب مذكورة مثل 85.5% و74.7%، إضافةً إلى تقييمات على WidowX.
CALVIN: تحسن في متوسط القدرة على إنجاز 5 مهام متتالية في سيناريوهات تقسيم بيانات محددة (ABC→D وABCD→D).

هذه الأرقام مهمة لأن الاختبارات هنا ليست “حركة واحدة”، بل غالبًا مهام تتطلب تسلسلًا ومنطقًا وتحمّلًا للأخطاء الصغيرة، وهو ما يجعل التفوق عليها إشارة قوية—ولو أنه يبقى داخل إطار محاكاة في جزء كبير منه.

على أرض الواقع: ماذا فعل الروبوت فعليًّا؟

شاومي تقول إنها اختبرت النموذج على منصّة روبوت ثنائي الذراعين في مهمتين صعبتين نسبيًّا:

طيّ المنشفة (مرونة، احتكاك، تغيّر شكل الجسم باستمرار)
تفكيك مكعبات/قطع (Lego disassembly) (دقة وتناسق بين الذراعين)

والنقطة التي تكررها الشركة: ليس “النجاح” فقط، بل معدل الإنجاز (throughput) وسلاسة التنفيذ بزمن استجابة منخفض على عتاد أقرب للاستهلاكي.

مثال عملي مبسّط: كيف يمكن أن يبدو الأمر في الاستخدام؟

تخيّل سيناريو منزلي بسيط:

“رتّب الطاولة وجهّز مكانًا للكوب.”

نموذج VLM قد يفسّر:

ما هي الأشياء على الطاولة؟
ما الذي يعيق وضع الكوب؟
ما أقرب ترتيب “منطقي” بدل حركة عشوائية؟

ثم خبير الحركة ينتج “حزمة أفعال” مثل:

تحريك قطعة ورق بعيدًا
دفع الملعقة قليلًا
تثبيت الكوب ووضعه في المكان الأنسب

الفارق هنا أنّ الروبوت لا يبدو وكأنه “يفكر ثم يتوقف ثم يتحرك”؛ بل يتحرك بسلاسة، لأن التخطيط والتنفيذ يُداران بطريقة تقلّل التقطّع.

ماذا يقول الناس؟ ردود فعل أولية

في تغطيات الإعلان، كان التركيز من المتابعين التقنيين على نقطتين متكررتين:

كونه مفتوح المصدر: لأن المجال يعاني من نماذج قوية لكن مغلقة، مما يصعّب المقارنة وإعادة التجارب.
“Real-time execution” على GPU استهلاكي: لأن الكثير من نماذج VLA تُبهر في الديمو، لكن تنهار في “السلاسة” عندما تصبح كل خطوة استدلال عبئًا زمنيًّا.

وطبيعيًّا، هناك رأي مقابل أيضًا: النجاح الحقيقي سيظهر عندما يتعامل النموذج مع فوضى البيئات الواقعية (إضاءة سيئة، أجسام جديدة، أخطاء ميكانيكية، انزلاق…)، وهي نقطة ما زالت تحديًا عامًا في الروبوتات وليس لدى شاومي وحدها.

أين يضع هذا شاومي على خريطة المنافسة؟

المثير هنا أن شاومي لا تأتي من “شركة روبوتات أكاديمية” تقليدية، بل من عالم الأجهزة الاستهلاكية وسلاسل الإمداد. وهذا قد يمنحها لاحقًا أفضلية:
إذا كان النموذج قويًّا ومفتوحًا، ومعه قدرة تصنيع وتكامل عتاد/برمجيات، فقد نرى انتقالًا أسرع من المختبر إلى منتجات فعلية—ولو تدريجيًّا.

Xiaomi-Robotics-0 ليس مجرد رقم (4.7 مليار معلمة)، بل محاولة مركّزة لحل مشكلة “تشوّه تجربة الروبوت” بسبب التأخير والتقطّع. الأهم أنه يجمع بين:

فهم بصري/لغوي جيد،
وتوليد حركة على شكل “حزم أفعال” أكثر سلاسة،
ونتائج قوية على LIBERO وCALVIN وSimplerEnv،
مع اختبارين واقعيين ثنائيي اليد.

المصدر: Xiaomi Robotics

قسم الأسئلة الشائعة

ما المقصود بنموذج Vision-Language-Action (VLA)؟

هو نموذج يربط بين ما يراه الروبوت (الرؤية) وما يفهمه من أوامر بشرية (اللغة) وبين ما ينفذه فعليًّا (الحركة)، بحيث تصبح التعليمات الطبيعية قابلة للتحويل إلى أفعال مباشرة.

ما أهمية رقم 4.7 مليار معلمة في Xiaomi-Robotics-0؟

يشير إلى حجم النموذج وقدرته على تمثيل أنماط فهم وحركة أكثر تعقيدًا. ومع ذلك، الأهم من الحجم وحده هو طريقة التدريب وتقليل زمن الاستجابة لضمان تنفيذ سلس.

هل نتائج المحاكاة مثل LIBERO وCALVIN كافية للحكم على النموذج؟

هي مؤشرات مهمة لأنها تقارن النموذج بغيره ضمن شروط موحّدة، لكن الحكم النهائي يحتاج اختبارات واقعية أوسع لأن العالم الحقيقي مليء بالضوضاء والأخطاء غير المتوقعة.

ما معنى Action Chunks ولماذا تساعد على السلاسة؟

هي “حزم” من الحركات المتتالية يولدها النموذج دفعة واحدة. هذا يقلّل التوقف بين خطوة وأخرى، ويجعل حركة الروبوت أقرب للطبيعية بدل التقطّع.

ما الذي يعنيه “التنفيذ اللحظي على GPU استهلاكي”؟

يعني أن النموذج مصمم ليعمل بزمن استجابة منخفض دون الحاجة لخوادم ضخمة، وهو عامل حاسم لأي روبوت يريد التحرك بسلاسة في بيئة حقيقية.

شاومي تدخل عالم الروبوتات الكبيرة وتطلق Xiaomi-Robotics-0

ما الذي يميز Xiaomi-Robotics-0؟ من “فهم الكلام” إلى تنفيذ الحركة لحظيًّا

الصين تبدأ إنتاج آلات DUV محلية.. هل تهدد هيمنة ASML؟

إنفيديا تستعيد لقب أكبر شركة في العالم بعد تفوق أبل المؤقت

نماذج الصين تضيق الفجوة مع أمريكا في سباق الذكاء الاصطناعي

التحديثات الأخيرة

الصين تبدأ إنتاج آلات DUV محلية.. هل تهدد هيمنة ASML؟

هل يمكن لطائرة إيقاف غروب الشمس؟ فيديو طيارة ألمانية يوثق مشهدًا مذهلًا

زلزال بقوة 7.1 يضرب اليابان.. إصابات وأضرار واسعة في كوماموتو

كيف تختار لابتوباً مناسباً؟ دليل لفهم جميع المواصفات

صفقات إنفيديا الضخمة: توسع ذكي أم فقاعة ذكاء اصطناعي؟

العملات المشفرة ترتفع وبتكوين تتجاوز 65 ألف دولار

ترتيب منتخبات العالم بعد مونديال 2026: إسبانيا أولًا والمغرب سادسًا

فيلم The Last House 2026: عائلة محاصرة داخل منزلها لسنوات

ترتيب الدول التي تستقبل سياحًا أكثر من عدد سكانها

أين ظهر أكبر عدد من المليونيرات الجدد في 2025؟

شاومي تدخل عالم الروبوتات الكبيرة وتطلق Xiaomi-Robotics-0

ما الذي يميز Xiaomi-Robotics-0؟ من “فهم الكلام” إلى تنفيذ الحركة لحظيًّا

ما هو Xiaomi-Robotics-0 ببساطة؟

كيف تعمل المعمارية؟ ولماذا اختارت شاومي MoT؟

1) جزء الرؤية واللغة (VLM): “الدماغ”

2) خبير الحركة (Diffusion Transformer): “العضلات الذكية”

لماذا Mixture-of-Transformers (MoT)؟

التدريب: كيف تتجنب شاومي مشكلة “نسيان الفهم” أثناء تعلم الحركة؟

الأرقام التي لفتت الانتباه: ماذا حقق على الاختبارات؟

على أرض الواقع: ماذا فعل الروبوت فعليًّا؟

مثال عملي مبسّط: كيف يمكن أن يبدو الأمر في الاستخدام؟

ماذا يقول الناس؟ ردود فعل أولية

أين يضع هذا شاومي على خريطة المنافسة؟

قسم الأسئلة الشائعة

المقالات ذات الصلة