انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة. يتعلم أكثر
منذ أنثروبي بعد إصدار ميزة “استخدام الكمبيوتر” لكلود في أكتوبر، كان هناك الكثير من الإثارة حول ما يمكن أن يفعله عملاء الذكاء الاصطناعي عندما يُمنحون القدرة على محاكاة التفاعلات البشرية. أ دراسة جديدة بواسطة عرض المختبر في جامعة سنغافورة الوطنية نظرة عامة على ما يمكن أن نتوقعه من الجيل الحالي من وكلاء واجهة المستخدم الرسومية (GUI).
يعد كلود أول نموذج حدودي يمكنه التفاعل كوكيل واجهة المستخدم الرسومية مع جهاز من خلال نفس الواجهات التي يستخدمها البشر. يصل النموذج فقط إلى لقطات شاشة سطح المكتب ويتفاعل عن طريق تشغيل إجراءات لوحة المفاتيح والماوس. تعد هذه الميزة بالسماح للمستخدمين بأتمتة المهام من خلال تعليمات بسيطة ودون الحاجة إلى الوصول إلى واجهة برمجة التطبيقات (API) للتطبيقات.
اختبر الباحثون كلود في مجموعة متنوعة من المهام، بما في ذلك تصفح الويب وإكمال سير العمل وإنتاجية المكتب وألعاب الفيديو. تتضمن مهام تصفح الويب التنقل والتفاعل مع صفحات الويب، مثل البحث عن العناصر وشرائها أو الاشتراك في خدمات الأخبار. تتضمن مهام سير العمل تفاعلات مع تطبيقات متعددة، مثل استخراج المعلومات من صفحة ويب وإدراجها في جدول بيانات. تختبر مهام إنتاجية Office قدرة الوكيل على تنفيذ العمليات الشائعة مثل تنسيق المستندات وإرسال رسائل البريد الإلكتروني وإنشاء العروض التقديمية. تعمل مهام ألعاب الفيديو على تقييم قدرة الوكيل على أداء مهام متعددة الخطوات تتطلب فهم منطق اللعبة وإجراءات التخطيط.
تختبر كل مهمة قدرة النموذج في ثلاثة أبعاد: التخطيط والعمل والناقد. أولاً، يجب أن يأتي النموذج بخطة متماسكة لإنجاز المهمة. يجب أن يكون بعد ذلك قادرًا على تنفيذ الخطة من خلال ترجمة كل خطوة إلى إجراء، مثل فتح المتصفح، والنقر على العناصر، وكتابة النص. وأخيرًا، يحدد العنصر الحاسم ما إذا كان النموذج يمكنه تقييم مدى تقدمه ونجاحه في إنجاز المهمة. يجب أن يكون النموذج قادرًا على فهم ما إذا كان قد ارتكب أخطاء على طول الطريق وتصحيح المسار. وإذا كانت المهمة غير ممكنة، فيجب تقديم تفسير منطقي. أنشأ الباحثون إطارًا يعتمد على هذه المكونات الثلاثة وقاموا بمراجعة وتقييم جميع التجارب البشرية.
بشكل عام، أدى كلود المهام المعقدة بشكل جيد للغاية. لقد كان قادرًا على التفكير والتخطيط للخطوات المتعددة اللازمة لإكمال المهمة وتنفيذ الإجراءات وتقييم تقدمه في كل خطوة. ويمكنه أيضًا التنسيق بين التطبيقات المختلفة مثل نسخ المعلومات من صفحات الويب ولصقها في جداول البيانات. علاوة على ذلك، في بعض الحالات، يقوم بمراجعة النتائج مرة أخرى في نهاية المهمة للتأكد من أن كل شيء على ما يرام. يُظهر تتبع المنطق الخاص بالنموذج أن لديه فهمًا عامًا لكيفية عمل الأدوات والتطبيقات المختلفة ويمكنه تنسيقها بشكل فعال.
ومع ذلك، فهو يميل أيضًا إلى ارتكاب أخطاء تافهة يمكن للأشخاص العاديين تجنبها بسهولة. على سبيل المثال، في إحدى المهام، فشل النموذج في إكمال الاشتراك لأنه لم يقوم بالتمرير لأسفل صفحة الويب للعثور على الزر المناسب. وفي حالات أخرى، فشل في مهام بسيطة ومباشرة للغاية، مثل تحديد النص واستبداله أو تغيير النقاط النقطية إلى أرقام. علاوة على ذلك، فإن النموذج إما لم يدرك خطأه أو وضع افتراضات خاطئة حول سبب عدم قدرته على تحقيق الهدف المنشود.
وفقًا للباحثين، فإن سوء تقدير النموذج لتقدمه يسلط الضوء على “القصور في آليات التقييم الذاتي للنموذج” ويشير إلى أن “الحل الكامل لهذا قد لا يزال يتطلب تحسينات في إطار وكيل واجهة المستخدم الرسومية، مثل وحدة النقد الصارمة الداخلية. ” “توضح النتائج أيضًا أن وكلاء واجهة المستخدم الرسومية لا يمكنهم تكرار جميع الفروق الأساسية في كيفية استخدام الأشخاص لأجهزة الكمبيوتر.
ماذا يعني هذا بالنسبة للشركات؟
يعد الوعد باستخدام الأوصاف النصية الأساسية لأتمتة المهام أمرًا جذابًا للغاية. لكن على الأقل في الوقت الحالي، هذه التكنولوجيا ليست جاهزة للتبني على نطاق واسع. سلوك النموذج غير مستقر ويمكن أن يؤدي إلى نتائج غير متوقعة، مما قد يكون له عواقب ضارة في التطبيقات الحساسة. كما أن تنفيذ الإجراءات من خلال واجهات مصممة للبشر ليس الطريقة الأسرع لإنجاز المهام التي يمكن تنفيذها من خلال واجهات برمجة التطبيقات.
ولا يزال أمامنا الكثير لنتعلمه عن المخاطر الأمنية المتمثلة في منح التحكم بالماوس ولوحة المفاتيح لنماذج اللغات الكبيرة (LLMs). على سبيل المثال، تظهر الدراسة أن وكلاء الويب يمكنهم ذلك بسهولة تقع ضحية لهجمات العدو والتي يمكن أن يتجاهلها الناس بسهولة.
لا تزال أتمتة المهام على نطاق واسع تتطلب بنية أساسية قوية، بما في ذلك واجهات برمجة التطبيقات والخدمات الصغيرة التي يمكن توصيلها بشكل آمن وتقديمها على نطاق واسع. ومع ذلك، يمكن لأدوات مثل Claude Computer Use أن تساعد فرق المنتجات على استكشاف الأفكار والبحث عن حلول مختلفة للمشكلات دون استثمار الوقت والمال في تطوير ميزات أو خدمات جديدة لأتمتة المهام. بمجرد اكتشاف حل قابل للتطبيق، يمكن للفريق التركيز على تطوير التعليمات البرمجية والمكونات اللازمة لتقديمه بكفاءة وموثوقية.