هل سبق وأن سمعت عن وكلاء الذكاء الاصطناعي (AI Agents)؟ يختلف هذا النوع عن
الذكاء الاصطناعي التوليدي
(Generative AI) القائم على الاستدلال لتوليد النصوص والصور، إذ أنه يستطيع
اتخاذ القرارات وتنفيذ الأوامر بشكلٍ مستقل؛ بمعنى أنك تطلب منه طلبًا مُعينًا
ليقوم بتنفيذه خطوة بخطوة حتى لو كان الأمر يتطلب التفاعل مع مواقع أو تطبيقات
أخرى بالنيابة عنك. بدأت شركات كثيرة مثل جوجل وأنثروبيك
الاستثمار بقوة في هذه التكنولوجيا، والآن جاء الدور على OpenAI
لتدخل إلى سوق "الوكلاء الذكيين".
أعلنت الشركة المتخصصة في
مجال الذكاء الاصطناعي
عن نسختها الخاصة من وكلاء الذكاء الاصطناعي
تحت اسم "Operator"
والتي ستكون جزءًا من ChatGPT وتستطيع اتخاذ قرارات ومهام متنوعة عبر الإنترنت
نيابةً عن المستخدمين، بدءًا من ملء النماذج الإلكترونية مرورًا بإدارة عمليات
الشراء المعقدة. تُعتبر هذه الأداة نقلة نوعية في تفاعل الذكاء الاصطناعي مع
واجهات المستخدم الرسومية، حيث تعتمد على متصفحٍ خاص
له وصولٌ على الويب
ويستطيع التفاعل معه مثلما تفعل أنت. حتى الآن، توجد أداة Operator الجديدة
كنسخةٍ تجريبية متاحة للباحثين والمطورين فقط داخل الولايات المتحدة، وإليك أهم
ما تحتاج معرفته عنها.
الوكيل الذكي Operator من OpenAI
ما هو وكيل الذكاء الاصطناعي Operator ؟
تم تصميم
أداة Operator
للتعامل مع سلسلة واسعة من المهام التي تتطلب تفاعلًا متكررًا مع المتصفح، مثل
ملء الاستمارات الإلكترونية الطويلة أو طلب شيء ما من على الإنترنت، وغيرها من
المهام. بحيث يمكنها التحكم في متصفح ويب مُضمّن بداخلها لأداء مهام
محددة بنحو مستقل نيابةً عن المستخدم.
الفرق الجوهري بين هذه الأداة وبين الذكاء الاصطناعي التوليدي الذي اعتدنا
استخدامه يكمن في المثال الآتي: تخيل أنك طلبت من الذكاء الاصطناعي التوليدي
كتابة رسالة بريد إلكتروني لحجز غرفة في فندق؛ الذكاء الاصطناعي التوليدي سيقوم
بكتابة نص الرسالة فقط وصياغتها بدلًا منك، أما الذكاء الاصطناعي الوكيل فسيفهم
الطلب جيدًا، ثم يبحث عن الفنادق المتاحة ويقارن الأسعار، بل ويتخذ لك القرار
(إذا منحته الإذن بذلك طبعًا) لينتهي الحال بحجز الإقامة الفندقية نيابةً عنك.
سوف تعرض الأداة العمليات التي يقوم بها الوكيل خطوة بخطوة على الجانب
الأيسر، مع إتاحة إمكانية التدخل من طرفك في أي وقت لمنع الاستمرار في تنفيذ بقية
الخطوات.
الرائع في الأمر أن أداة Operator الجديدة تستطيع الوصول إلى أي موقعٍ تقريبًا
واستخدامه شريطة أن يكون مُصممًا للاستخدام البشري، على حد قول OpenAI. كما أوضحت
الشركة أيضًا أن Operator لا يجمع البيانات الشخصية أو يلتقط صورًا لها، وقد
تعاونت مع شركات مثل DoorDash و eBay و Instacart و Uber وغيرها لضمان الامتثال
لشروط استخدام خدماتها عبر الأداة.
كيف يعمل وكيل الذكاء الاصطناعي Operator ؟
تستند الأداة إلى نموذج ذكاء اصطناعي مُبتكر أُطلق عليه اسم CUA (اختصارًا لـ Computer-Using Agent) أو
الوكيل المُستخدِم للكمبيوتر. يجمع هذا النموذج بين قدرات الرؤية والتحليل البصري
الخاصة بـ GPT-4o، مما يمنح الوكيل "عينين" شبيهة بالبشر، لتمكينه من تحليل لقطات
الشاشة وفهم عناصر الصفحة مثل الأيقونات. كما يعتمد النموذج على خوارزميات التعلم
المعزز (Reinforcement Learning)، مما يسمح له بتحسين تفاعله مع الواجهات
الرسومية لمواقع الويب من خلال التجربة والتعلم المستمر.
توفر واجهة Operator الرئيسية خيارات متعددة للمهام، مثل التسوق والتوصيل وطلب
الطعام والسفر، ويمكن للوكيل الذكي تنفيذ هذه المهام تلقائيًا بناءً على المعطيات
التي تمنحها له. وعندما تتلقى أداة Operator مهمة ما، فإنها تبدأ بتحليل الصفحات
المرئية ثم تحديد الإجراءات المطلوبة بناءً على السياق. على سبيل المثال، إذا
طلبت من الأداة أن تحجز لك تذكرة طيران "من القاهرة إلى دبي يوم 10 أكتوبر" من
موقعٍ إلكتروني ما.
ستبدأ الأداة بزيارة هذا الموقع الإلكتروني وتحلل كل العناصر في واجهة المستخدم
ثم تحدد "دبي" كوجهة وتؤكد على اليوم "10 أكتوبر" ثم ستحجز التذكرة نيابةً عنك.
ولكن في البداية ستحتاج الأداة تأكيد قبل تنفيذ أي خطوة مهمة ذات
تأثير مثل تأكيد تنفيذ الطلب/الحجز أو إدخال البيانات المصرفية. كذلك ستتوقف
الأداة عند مواجهة اختبار CAPTCHA أو إذا طُلب منها إدخال كلمة مرور؛ في هذه
الحالات سيتعين عليك التدخل. لكن في معظم المهام لن تُضطر إلى التدخل في أي
شيء.
وكما اعتدنا من نماذج الذكاء الاصطناعي التوليدي، لن تحتاج للتعامل مع أداة
Operator باستخدام لغة معقدة أو أوامر دقيقة؛ يكفي أن تطلب ما تريده بلهجتك
المحلية، سواء كانت مصرية، تونسية، مغربية، وغيرها. ما يميز الأداة أيضًا هو أنها
تحفظ تفضيلاتك، مما يجنبك عناء كتابة التفاصيل نفسها في كل مرة. على سبيل المثال،
إذا كنت تفضل التسوق من موقع "أمازون" وتطلب منتجًا معينًا بشكل متكرر، ستحفظ
الأداة ذلك وتطلبه لك بمجرد أن تأمرها بذلك بأقصر الكلمات.
توفر Operator وخطة التوسع المستقبلية
تتوفر أداة Operator حاليًا تحت عنوان "operator.chatgpt.com" لكنها متاحة كنسخة تجريبية محدودة للباحثين والمطورين في الولايات المتحدة الأمريكية، كما تعُد جزءً من اشتراك ChatGPT Pro الذي تبلغ قيمته 200 دولار شهريًا. لكن توجد خطة توسع يتم دراستها حاليًا حتى تكون
الأداة موجودة في بقية الإصدارات المدفوعة مثل Plus و Team و Enterprise خلال الأشهر المقبلة.
من الخطط المستقبلية أيضًا – بعيدًا عن التوسع – أن يتفاعل هذا النموذج بقية
التطبيقات والبرامج وليس مواقع الويب فقط، حتى وإن لم تُفصح OpenAI عن ذلك بشكلٍ
صريح، فمن الناحية العملية، هذا الأمر ممكن ويحدث بالفعل مع نماذج قدمتها شركات أخرى مثل Computer use من شركة أنثروبيك للتحكم في الكمبيوتر وتنفيذ بعض المهام دون تدخل من المستخدم، فما المانع أن تصل هذه القدرات إلى Operator بدلًا حصره في مهام الويب فقط ؟ بالطبع هناك تحديات كثيرة تكمن في الخصوصية وفي طبيعية صفحات الويب الديناميكية
والمتغيرة باستمرار، لكننا اعتدنا هذه الأمور! الشاهد هنا أن Operator سيمثل قفزة نوعية في إمكانيات الذكاء الاصطناعي، حيث يتعدى دوره حدود توفير المعلومات ليصل إلى القيام بإجراءات فعلية عبر الإنترنت.