هل سئمت يوماً من الروتين المُمِل لفتح عشرات النوافذ لمقارنة أسعار تذكرة طيران؟ أو ملء نفس النموذج مراراً وتكراراً؟ حسناً، يبدو أن جوجل سمعت شكواك. أعلنت الشركة مؤخراً عن قدرة جديدة ومثيرة في نموذجها للذكاء الاصطناعي، وهي خطوة قد تنقلنا من عصر “البحث” إلى عصر “التنفيذ”.
أطلقت جوجل نموذجاً متخصصاً باسم “Gemini 2.5 Computer Use”، وهو ليس مجرد تحديث عادي. إنه يمنح “جيميني” القدرة على التصرف كمستخدم بشري حقيقي داخل متصفحك. ببساطة، بدلاً من أن يخبرك بكيفية حجز فندق، سيمكنه قريباً حجز الفندق نيابة عنك.
هذا التطور يضعنا أمام مفهوم يُعرف بـ “عميل الذكاء الاصطناعي” (AI Agent)، وهو برنامج لا يكتفي بفهم الأوامر، بل ينفذها في العالم الرقمي.
كيف يعمل هذا “العميل”؟ ولماذا هو مختلف؟
لفهم أهمية هذا الخبر، يجب أن نفرق بين طريقتين لعمل الذكاء الاصطناعي.
- الطريقة القديمة (عبر APIs): لكي يتمكن مساعد ذكي من حجز رحلة على موقع طيران، كان المطورون بحاجة إلى “واجهة برمجة تطبيقات” (API) خاصة يوفرها موقع الطيران. هذه الطريقة معقدة، ومكلفة، ومحدودة جداً؛ فمعظم مواقع الويب لا توفر هذه الواجهات.
- الطريقة الجديدة (المحاكاة البشرية): نموذج Gemini 2.5 يتجاوز هذه العقبة تماماً. فهو لا يحتاج إلى أي واجهة برمجة. بدلاً من ذلك، هو “يرى” صفحة الويب كما تراها أنت (عبر تحليل لقطات الشاشة وفهم تكوين الصفحة)، ويقرر بنفسه أين يوجد زر “إرسال”، وأين هو حقل “الاسم”، ثم ينفذ “نقرة” أو “كتابة” تماماً كما تفعل بفأرة الكمبيوتر.
هذه المرونة هي سر القوة هنا. فجأة، أصبح كل موقع على الإنترنت، قديماً كان أم حديثاً، قابلاً للأتمتة بواسطة “جيميني” دون أي تعديل برمجي من أصحاب تلك المواقع.
من الكلام إلى الأفعال: أمثلة عملية
هذا التحول من “المعرفة” إلى “الفعل” يفتح الباب أمام استخدامات كانت تبدو خيالاً علمياً حتى وقت قريب. تخيل أنك تطلب من “جيميني” المهام التالية:
- أتمتة المهام المعقدة: “يا جيميني، ابحث عن أرخص 5 فنادق (4 نجوم) في روما للأسبوع الأول من ديسمبر، وقارن بين تقييماتهم، ثم ابدأ إجراءات الحجز لأفضل واحد منها وتوقف عند صفحة الدفع.”
- إدخال البيانات الممل: “خذ بيانات هؤلاء العملاء الجدد من ملف الـ Excel هذا، وقم بإنشاء حسابات لهم جميعاً على منصة إدارة العملاء الخاصة بنا.”
- البحث العميق: “تصفح آخر 10 مقالات حول ‘أبحاث الطاقة النظيفة’، ولخّص لي الاتجاهات الرئيسية، واحفظ المصادر في ملف.”
نتيجة لذلك، ستتغير علاقتنا بالكمبيوتر بشكل جذري. فبدلاً من أن نكون نحن “المستخدمين” الذين ينقرون ويتصفحون، سنصبح “المشرفين” الذين يوكلون المهام.
تحليل: سباق “العملاء” بدأ.. وجوجل تملك ورقة رابحة
من المهم أن ندرك أن جوجل ليست وحدها في هذا المضمار. هذا الإعلان يأتي في خضم منافسة محمومة:
- OpenAI (مطورة ChatGPT) أعلنت عن ميزات “التطبيقات” التي تتيح لنموذجها التفاعل مع خدمات أخرى.
- Anthropic (مطورة Claude) تعمل هي الأخرى على أدوات مشابهة للتفاعل مع واجهات الكمبيوتر.
السباق لم يعد فقط حول “من هو الأذكى”، بل “من هو الأكثر فائدة” في تنفيذ المهام الحقيقية.
وهنا تكمن نقطة التحليل المهمة: جوجل تملك ميزة استراتيجية لا يملكها الآخرون: متصفح كروم (Chrome).
الخبر يوضح أن نموذج Gemini 2.5 يعمل “داخل بيئة المتصفح فقط” ولا يتحكم في نظام التشغيل بالكامل. قد يبدو هذا “تقييداً” للوهلة الأولى، ولكنه في الواقع خطوة عبقرية. المتصفح هو “بيئة آمنة” (Sandbox) مثالية لاختبار هذه التقنية الجبارة.
بينما تحاول مايكروسوفت دمج Copilot في عمق نظام ويندوز (وهو أمر ينطوي على مخاطر أمنية هائلة)، تختار جوجل البدء بالمتصفح، المكان الذي تقضي فيه أغلبية ساحقة من المستخدمين وقتهم، والذي تسيطر عليه جوجل بالكامل. هذا يتيح لها اختبار الأداة وتطويرها بأمان قبل التفكير في منحها “مفاتيح” نظام التشغيل.
ماذا يعني هذا لك كمستخدم؟
نحن لا نتحدث فقط عن توفير الوقت. نحن نتحدث عن تغيير محتمل في بنية الإنترنت نفسها.
1. نهاية التصفح اليدوي: بالنسبة للمهام الروتينية، قد نودع قريباً فكرة “تصفح الويب”. لن “تبحث” عن معلومة، بل ستطلب “نتيجة” (مثل حجز مكتمل أو تقرير جاهز).
2. التأثير على الوظائف: أي وظيفة تعتمد بشكل كبير على إدخال البيانات اليدوي، أو خدمة العملاء عبر النماذج، أو حتى اختبار واجهات المستخدم (UI Testing)، ستكون في قلب التغيير.
3. التحدي الأمني: هذا هو الجانب الأكثر قتامة. إذا كان عميل الذكاء الاصطناعي يستطيع ملء نموذج حجز فندق، فهو نظرياً يستطيع ملء نموذج تحويل بنكي. لذلك، بدأت جوجل إتاحة الأداة للمطورين فقط، مع “آليات أمان مدمجة” تتطلب موافقة بشرية على الإجراءات الحساسة.
الخلاصة تتحرك جوجل بخطى ثابتة لتحويل “جيميني” من محرك بحث فائق الذكاء إلى “مساعد شخصي تنفيذي”. نحن على وشك الدخول إلى مرحلة جديدة لا يكون فيها الإنترنت مكاناً “نزوره” للحصول على المعلومات، بل أداة “نستخدمها” لإنجاز الأمور.
قسم الأسئلة الشائعة
ما هو “Gemini 2.5 Computer Use”؟
هو نموذج ذكاء اصطناعي جديد من جوجل، يُعرف باسم “عميل الذكاء الاصطناعي”، يمكنه تصفح مواقع الويب والتفاعل معها (مثل النقر وملء النماذج) تماماً كالإنسان.
ما الفرق بينه وبين “جيميني” العادي؟
“جيميني” العادي يمكنه البحث والإجابة على الأسئلة (يقدم “معلومات”). أما النموذج الجديد فيمكنه تنفيذ “أفعال” على تلك المعلومات (مثل حجز تذكرة، ملء استمارة) مباشرة على الموقع.
كيف يتفاعل مع المواقع دون برمجة خاصة (API)؟
يعتمد النموذج على “الرؤية الحاسوبية”. هو يحلل لقطة شاشة لصفحة الويب، ويفهم أماكن الأزرار وحقول النصوص، ثم يقرر أين “ينقر” أو “يكتب” ليحقق هدف المستخدم.
هل هو متاح للاستخدام الآن؟
لا، الأداة حالياً في مرحلة تجريبية ومتاحة للمطورين فقط لاختبارها. جوجل تخطط لإتاحتها للمستخدمين قريباً.
هل هذا آمن؟
هذا هو التحدي الأكبر. تؤكد جوجل أن النموذج يقتصر على بيئة المتصفح فقط (وليس نظام الكمبيوتر)، ويتضمن آليات أمان مدمجة تتطلب موافقة المستخدم على الإجراءات الحساسة (مثل الدفع).
