إعلان

برز اسم UI-TARS-desktop كأحد أكثر المشاريع جرأةً واهتمامًا في عالمٍ يتّجه فيه الذكاء الاصطناعي من المساعدات النصّية إلى الوكلاء القادرين على التنفيذ الفعلي. نحن لا نتحدث هنا عن Chatbot متقدم، بل عن وكيل ذكاء اصطناعي يرى الشاشة، يفهم الواجهة، ويتصرف كمستخدم بشري حقيقي—وذلك محليًا، دون الاعتماد الإجباري على السحابة.

ما هو UI-TARS-desktop؟

UI-TARS-desktop هو تطبيق سطح مكتب يوفّر GUI Agent مبنيًا على نموذج UI-TARS، قادر على التحكم بالكمبيوتر والمتصفح والبرامج عبر فهم بصري مباشر لواجهة المستخدم.

الوكيل لا يحتاج APIs خاصة، ولا تكاملات مغلقة، بل يتعامل مع النظام كما يفعل الإنسان:
يرى، يقرّر، ينفّذ.

هذا يجعله مختلفًا جذريًا عن أدوات الأتمتة التقليدية أو وكلاء الذكاء الاصطناعي المعتمدين فقط على النص أو الأوامر.

وهذا رابطه على Github: github.com/bytedance/UI-TARS-desktop

إعلان

المنظومة الكاملة: Agent TARS vs UI-TARS-desktop

المشروع لا يقدّم منتجًا واحدًا فقط، بل منظومة Agent متكاملة مكوّنة من نسختين رئيسيتين:

أولًا: Agent TARS (CLI + Web UI)

Agent TARS هو البنية العامة (AI Agent Stack) التي تقف خلف المشروع.

ما الذي يقدّمه؟

  • وكيل متعدد الوسائط (Multimodal)
  • يجمع بين:
    • الرؤية (Vision)
    • فهم الواجهة (GUI Agent)
    • الأدوات الواقعية (Shell، ملفات، متصفح)
  • يعمل من:
    • الطرفية (CLI)
    • واجهة ويب
    • السيرفرات headless

الفكرة الأساسية
توفير سير عمل أقرب إلى طريقة تفكير الإنسان في إنجاز المهام، وليس مجرد تنفيذ أوامر منفصلة.

ثانيًا: UI-TARS-desktop (التجربة البصرية الكاملة)

هنا يتحول Agent من أداة تقنية إلى مستخدم رقمي فعلي.

UI-TARS-desktop يقدّم:

  • تطبيق Desktop كامل
  • تحكم محلي أو عن بُعد بالكمبيوتر
  • Browser Operators مدمجة
  • Agent يرى الشاشة ويتفاعل معها مباشرة

إذا كان Agent TARS هو “العقل”، فإن UI-TARS-desktop هو “الجسد”.


آخر الأخبار والتحديثات (نوفمبر 2025)

في 05-11-2025، أعلن الفريق عن إصدار مهم:

Agent TARS CLI v0.3.0

إصدار يرفع المشروع إلى مستوى جديد من النضج التقني.

أبرز الإضافات:

  • Streaming متعدد الأدوات
    (أوامر shell + عرض منظم لملفات متعددة)
  • إحصائيات وقت التنفيذ
    لكل استدعاء أداة، وحتى “التفكير العميق”
  • Event Stream Viewer
    لتتبّع تدفّق البيانات وفهم سلوك الوكيل أثناء التنفيذ
  • AIO Agent Sandbox (حصري)
    بيئة معزولة لتنفيذ الأدوات بشكل آمن ومتكامل

هذا التحديث تحديدًا لاقى ترحيبًا كبيرًا من المطورين، لأنه يحوّل الوكيل من “صندوق أسود” إلى نظام قابل للمراقبة، التحليل، والتصحيح.


الميزات الأساسية:

1️⃣ One-Click CLI (جاهز فورًا)

  • تشغيل سريع بدون إعداد معقّد
  • يدعم:
    • Web UI مرئية
    • Server Headless

2️⃣ Hybrid Browser Agent

تحكم بالمتصفح بثلاث استراتيجيات:

  • GUI Agent (محاكاة المستخدم)
  • DOM Control
  • Hybrid Strategy (الأذكى والأكثر استقرارًا)

3️⃣ Event Stream Architecture

نظام أحداث موجّه بالبروتوكولات:

  • Context Engineering أدق
  • UI توضّح ما يحدث “لحظة بلحظة”
  • مفيد جدًا للـ Debugging

4️⃣ تكامل MCP (Model Context Protocol)

  • النواة مبنية على MCP
  • يمكن Mount MCP Servers خارجية
  • ربط مباشر بأدوات حقيقية:
    • ملفات
    • أنظمة
    • متصفحات
    • خدمات داخلية

كيفية تنصيب Agent TARS:

التشغيل السريع:

npx @agent-tars/cli@latest

التثبيت العالمي (يتطلب Node.js >= 22):

npm install @agent-tars/cli@latest -g

التشغيل مع مزوّد نماذج:

agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key

أو:

agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key


ردود فعل المجتمع والمطورين

رغم حداثة المشروع، إلا أن ردود الفعل في مجتمعات المطورين كانت لافتة.

الانطباعات الإيجابية:

  • خصوصية عالية (تشغيل محلي)
  • تحكم فعلي بالواجهة وليس نظريًا
  • مرونة غير مسبوقة في الأتمتة
  • Event Stream اعتُبرت “نقطة تحوّل”

التحفّظات الواقعية:

  • يحتاج خبرة تقنية
  • دقة التفاعل قد تتأثر بتغيّر الواجهات
  • الأداء مرتبط بقوة الجهاز

لكن المثير للاهتمام أن معظم الانتقادات لم تكن تشكّك في الفكرة، بل في مرحلة النضج فقط.


ميزات UI-TARS-desktop

نحن أمام انتقال حقيقي من:

“AI يجيبك”
إلى
“AI يعمل بدلًا عنك”

  • لا قيود APIs
  • لا سحابة إجبارية
  • لا تسريب بيانات
  • لا حدود لخيال الأتمتة

UI-TARS-desktop ليس أداة للجميع اليوم، لكنه أداة ستصبح معيارًا غدًا.رهو موجّه للمطورين، صناع الأنظمة، وأصحاب المشاريع الذين يفكّرون في الذكاء الاصطناعي كـ عامل رقمي مستقل، لا مجرد مساعد محادثة.

إذا استمر المشروع بهذا الزخم، فنحن على أعتاب جيل جديد من الوكلاء:
وكلاء لا يتحدثون فقط… بل ينفّذون.

شاركها.

أكتب بشغف عن التكنولوجيا والعلوم وكل ما هو جديد ومثير في عالم الابتكار. أشارك مقالات تهدف إلى تبسيط المفاهيم الحديثة وجعل المعرفة في متناول الجميع.

إعلان
Subscribe
Notify of
0 Comments
Oldest
Newest Most Voted
تعليقات داخلية
عرض كل التعليقات
إعلان
wpDiscuz
0
0
حابين نسمع رأيك، اترك تعليقك.x
()
x
Exit mobile version