خلال العامين الأخيرين، لم يعد سؤال الروبوتات: هل يمكنه التقاط جسم؟ بل صار: هل يفهم ما أريد—حتى لو طلبتُ بطريقة بشرية غامضة—ثم ينفّذ بسرعة وبسلاسة؟ هنا تحديدًا تحاول شاومي أن تحجز مقعدًا مبكرًا في سباق “الذكاء الفيزيائي”: نماذج لا تكتفي بالرؤية أو اللغة، بل تربطهما مباشرة بالحركة على أرض الواقع.
ومن هذه الزاوية أعلنت الشركة عن Xiaomi-Robotics-0 كنموذج Vision-Language-Action (VLA) مفتوح المصدر، بعدد 4.7 مليار معلمة، مع تركيز واضح على مشكلة تؤرق المجال: بطء الاستدلال الذي يصنع حركة متقطعة بدل أداء طبيعي.
ما هو Xiaomi-Robotics-0 ببساطة؟
تخيّله كـ “عقلين يعملان معًا”:
- عقل يفهم الصور + اللغة: ما الذي أراه؟ ماذا طلبتَ؟ وما الخطوة المنطقية التالية؟
- وعقل ثانٍ يحوّل هذا الفهم إلى حركات متسلسلة بسرعة تكفي لعدم كسر الإحساس الطبيعي بالحركة.
شاومي تصفه كنموذج VLA مصمم ليحقق أداءً قويًّا وفي الوقت نفسه تنفيذًا لحظيًّا سلسًا حتى على عتاد أقرب إلى “GPU استهلاكي” وليس مزرعة خوادم.
كيف تعمل المعمارية؟ ولماذا اختارت شاومي MoT؟
1) جزء الرؤية واللغة (VLM): “الدماغ”
هذا الجزء يتعامل مع الأشياء التي يفعلها البشر تلقائيًّا:
يفهم تعليمات مثل “اطوِ المنشفة” حتى لو كانت مختصرة أو غير دقيقة، ثم يربطها بما تلتقطه الكاميرا: موقع المنشفة، اتجاه الطي، ما الذي يجب تثبيته أولًا… إلخ.
2) خبير الحركة (Diffusion Transformer): “العضلات الذكية”
بدل توليد حركة واحدة ثم التوقف، النموذج ينتج ما يشبه حِزمًا من الأفعال (Action Chunks): تسلسل حركات متتابعة ومستمرة، وهو ما يساعد على سلاسة التنفيذ وتقليل “الرجّة” الناتجة عن التأخير بين خطوة استدلال وأخرى.
لماذا Mixture-of-Transformers (MoT)؟
اختيار MoT ينسجم مع فكرة “تقسيم المهام” وتوزيعها بكفاءة بدل جعل نموذج واحد يفعل كل شيء طوال الوقت. هذا النوع من المعماريات يُستخدم عادةً لتحسين الكفاءة وإتاحة “تخصصات” داخل النموذج مع تقليل كلفة الحساب مقارنةً بتوسيع نموذج واحد بشكل عشوائي.
التدريب: كيف تتجنب شاومي مشكلة “نسيان الفهم” أثناء تعلم الحركة؟
واحدة من أشهر مشاكل هذا المجال هي: عندما تدرب النموذج بقوة على بيانات الحركة، قد “ينسى” جزءًا من قدراته اللغوية/البصرية (catastrophic forgetting). شاومي تقول إنها تعاملت مع ذلك عبر تدريب مشترك يجمع:
- بيانات مسارات روبوتية (حركة)
- وبيانات رؤية/لغة (فهم)
ثم أضافت مرحلة “ما بعد التدريب” لتجهيز التنفيذ الفعلي على الروبوت بسلاسة أعلى.
ومن التقنيات اللافتة هنا:
- تشغيل غير متزامن (Asynchronous execution) لتقليل الإحساس بزمن الاستجابة أثناء الحركة.
- Λ-shaped attention mask لتقليل اعتماد النموذج على “اختصار” تقليد الحركة السابقة، وإجباره على الانتباه لما يراه الآن وما يُطلب منه الآن.
الأرقام التي لفتت الانتباه: ماذا حقق على الاختبارات؟
شاومي اختبرت Xiaomi-Robotics-0 على 3 معايير محاكاة شائعة في أبحاث الروبوتات:
- LIBERO: متوسط نجاح 98.7%.
- SimplerEnv: نتائج قوية في إعدادات مختلفة (مثل visual matching وvisual aggregation) مع نسب مذكورة مثل 85.5% و74.7%، إضافةً إلى تقييمات على WidowX.
- CALVIN: تحسن في متوسط القدرة على إنجاز 5 مهام متتالية في سيناريوهات تقسيم بيانات محددة (ABC→D وABCD→D).
هذه الأرقام مهمة لأن الاختبارات هنا ليست “حركة واحدة”، بل غالبًا مهام تتطلب تسلسلًا ومنطقًا وتحمّلًا للأخطاء الصغيرة، وهو ما يجعل التفوق عليها إشارة قوية—ولو أنه يبقى داخل إطار محاكاة في جزء كبير منه.
على أرض الواقع: ماذا فعل الروبوت فعليًّا؟
شاومي تقول إنها اختبرت النموذج على منصّة روبوت ثنائي الذراعين في مهمتين صعبتين نسبيًّا:
- طيّ المنشفة (مرونة، احتكاك، تغيّر شكل الجسم باستمرار)
- تفكيك مكعبات/قطع (Lego disassembly) (دقة وتناسق بين الذراعين)
والنقطة التي تكررها الشركة: ليس “النجاح” فقط، بل معدل الإنجاز (throughput) وسلاسة التنفيذ بزمن استجابة منخفض على عتاد أقرب للاستهلاكي.
مثال عملي مبسّط: كيف يمكن أن يبدو الأمر في الاستخدام؟
تخيّل سيناريو منزلي بسيط:
“رتّب الطاولة وجهّز مكانًا للكوب.”
نموذج VLM قد يفسّر:
- ما هي الأشياء على الطاولة؟
- ما الذي يعيق وضع الكوب؟
- ما أقرب ترتيب “منطقي” بدل حركة عشوائية؟
ثم خبير الحركة ينتج “حزمة أفعال” مثل:
- تحريك قطعة ورق بعيدًا
- دفع الملعقة قليلًا
- تثبيت الكوب ووضعه في المكان الأنسب
الفارق هنا أنّ الروبوت لا يبدو وكأنه “يفكر ثم يتوقف ثم يتحرك”؛ بل يتحرك بسلاسة، لأن التخطيط والتنفيذ يُداران بطريقة تقلّل التقطّع.
ماذا يقول الناس؟ ردود فعل أولية
في تغطيات الإعلان، كان التركيز من المتابعين التقنيين على نقطتين متكررتين:
- كونه مفتوح المصدر: لأن المجال يعاني من نماذج قوية لكن مغلقة، مما يصعّب المقارنة وإعادة التجارب.
- “Real-time execution” على GPU استهلاكي: لأن الكثير من نماذج VLA تُبهر في الديمو، لكن تنهار في “السلاسة” عندما تصبح كل خطوة استدلال عبئًا زمنيًّا.
وطبيعيًّا، هناك رأي مقابل أيضًا: النجاح الحقيقي سيظهر عندما يتعامل النموذج مع فوضى البيئات الواقعية (إضاءة سيئة، أجسام جديدة، أخطاء ميكانيكية، انزلاق…)، وهي نقطة ما زالت تحديًا عامًا في الروبوتات وليس لدى شاومي وحدها.
أين يضع هذا شاومي على خريطة المنافسة؟
المثير هنا أن شاومي لا تأتي من “شركة روبوتات أكاديمية” تقليدية، بل من عالم الأجهزة الاستهلاكية وسلاسل الإمداد. وهذا قد يمنحها لاحقًا أفضلية:
إذا كان النموذج قويًّا ومفتوحًا، ومعه قدرة تصنيع وتكامل عتاد/برمجيات، فقد نرى انتقالًا أسرع من المختبر إلى منتجات فعلية—ولو تدريجيًّا.
Xiaomi-Robotics-0 ليس مجرد رقم (4.7 مليار معلمة)، بل محاولة مركّزة لحل مشكلة “تشوّه تجربة الروبوت” بسبب التأخير والتقطّع. الأهم أنه يجمع بين:
- فهم بصري/لغوي جيد،
- وتوليد حركة على شكل “حزم أفعال” أكثر سلاسة،
- ونتائج قوية على LIBERO وCALVIN وSimplerEnv،
مع اختبارين واقعيين ثنائيي اليد.
المصدر: Xiaomi Robotics



