الدكاء AI

كيف تحصل التقييمات المخصصة على نتائج متسقة من تطبيقات LLM


انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة. يتعلم أكثر


أدى التقدم في نماذج اللغات الكبيرة (LLM) إلى تقليل الحواجز التي تحول دون إنشاء تطبيقات التعلم الآلي. من خلال التعليمات البسيطة والتقنيات الهندسية السريعة، يمكنك الحصول على LLM لأداء المهام التي قد تتطلب تدريب نماذج مخصصة للتعلم الآلي. يعد هذا مفيدًا بشكل خاص للشركات التي ليس لديها موهبة وبنية تحتية داخلية للتعلم الآلي، أو لمديري المنتجات ومهندسي البرمجيات الذين يرغبون في إنشاء منتجاتهم الخاصة القائمة على الذكاء الاصطناعي.

ومع ذلك، فإن فوائد النماذج سهلة الاستخدام لا تخلو من المقايضات. بدون اتباع نهج منظم لمراقبة أداء ماجستير إدارة الأعمال في تطبيقاتها، يمكن أن تنتهي الشركات بنتائج مختلطة وغير مستقرة.

المعايير العامة مقابل التقديرات المخصصة

الطريقة الشائعة الحالية لتقييم LLM هي قياس أدائها وفقًا للمعايير العامة مثل MMLU وMATH وGPQA. غالبًا ما تعلن مختبرات الذكاء الاصطناعي عن أداء نماذجها وفقًا لهذه المعايير، وتقوم لوحات المتصدرين عبر الإنترنت بتصنيف النماذج بناءً على درجات التقييم الخاصة بها. ولكن في حين أن هذه التقييمات تقيس القدرات العامة للنموذج في مهام مثل الإجابة على الأسئلة والاستدلال، فإن معظم تطبيقات الأعمال ترغب في قياس الأداء في مهام محددة للغاية.

قال أنكور جويال، المؤسس المشارك والرئيس التنفيذي لشركة Braintrust، لـ VentureBeat: “إن التقييمات العامة هي في المقام الأول وسيلة لمنشئي النماذج الأساسية لتسويق المزايا النسبية لنماذجهم”. “ولكن عندما تقوم شركة ما ببناء برامج تعتمد على الذكاء الاصطناعي، فإن الشيء الوحيد الذي يهتمون به هو ما إذا كان نظام الذكاء الاصطناعي هذا يعمل بالفعل أم لا.” ولا يوجد في الأساس أي شيء يمكنك نقله من النطاق العام إلى ذلك.

بدلاً من الاعتماد على المعايير العامة، يجب على الشركات إنشاء تقييمات مخصصة بناءً على حالات الاستخدام الخاصة بها. تتضمن التقييمات عادةً تقديم نموذج يحتوي على مجموعة من المدخلات أو المهام المصممة بعناية، ثم قياس مخرجاته وفقًا لمعايير محددة مسبقًا أو معايير من صنع الإنسان. قد تغطي هذه التقييمات جوانب مختلفة مثل الأداء الخاص بالمهمة.

الطريقة الأكثر شيوعًا لإنشاء التقييم هي التقاط بيانات المستخدم الحقيقية وتنسيقها في اختبارات. يمكن للمؤسسات بعد ذلك استخدام هذه التقييمات لاختبار تطبيقها والتغييرات التي تجريها عليه.

“مع التقييمات المخصصة، فإنك لا تختبر النموذج نفسه. قال جويال: “إنك تختبر الكود الخاص بك والذي ربما يأخذ مخرجات النموذج ويعالجه بشكل أكبر”. “أنت تختبر تعليماتهم، وهو على الأرجح الشيء الأكثر شيوعًا الذي يتكيف معه الأشخاص ويحاولون تحسينه وتحسينه. وتقوم باختبار الإعدادات وكيفية استخدام النماذج معًا.

كيفية إنشاء تقديرات مخصصة

مصدر الصورة: الثقة بالعقل

لإجراء تقييم جيد، يجب على أي منظمة أن تستثمر في ثلاثة مكونات رئيسية. الأول هو البيانات المستخدمة لإنشاء حالات اختبار للتطبيق. يمكن أن تكون البيانات عبارة عن أمثلة مكتوبة بخط اليد أنشأها موظفو الشركة، أو بيانات تركيبية تم إنشاؤها بمساعدة النماذج أو أدوات التشغيل الآلي، أو بيانات تم جمعها من المستخدمين النهائيين مثل سجلات الدردشة والخرائط.

وقال جويال: “إن الأمثلة المكتوبة بخط اليد وبيانات المستخدم النهائي أفضل بشكل كبير من البيانات الاصطناعية”. “ولكن إذا تمكنت من التوصل إلى حيل لتوليد بيانات تركيبية، فقد تكون فعالة.”

المكون الثاني هو المهمة نفسها. على عكس المهام العامة التي تمثل المعايير العامة، تعد التقييمات المخصصة لتطبيقات الأعمال جزءًا من نظام بيئي أوسع لمكونات البرامج. يمكن أن تتكون المهمة من عدة خطوات، لكل منها تقنياتها الهندسية السريعة واختيار النماذج. قد يتم تضمين مكونات أخرى غير LLM. على سبيل المثال، يمكنك أولاً تصنيف طلب وارد إلى واحدة من عدة فئات، ثم إنشاء استجابة بناءً على فئة الطلب ومحتواه، وأخيرًا إجراء استدعاء API لخدمة خارجية لإكمال الطلب. ومن المهم أن يغطي التقييم الإطار بأكمله.

وقال جويال: “الشيء المهم هو هيكلة التعليمات البرمجية الخاصة بك بحيث يمكنك استدعاء مهمتك أو استدعائها في تقييماتك بنفس الطريقة التي يحدث بها في الإنتاج”.

المكون الأخير هو وظيفة التسجيل التي تستخدمها لتقييم نتائج إطار العمل الخاص بك. هناك نوعان رئيسيان من وظائف التسجيل. الاستدلال عبارة عن وظائف قائمة على القواعد يمكنها التحقق من معايير محددة جيدًا، مثل اختبار نتيجة عددية مقابل الحقيقة الأساسية. بالنسبة للمهام الأكثر تعقيدًا مثل إنشاء النص وتلخيصه، يمكنك استخدام أساليب تقييم LLM، والتي تشجع نموذج لغة قويًا لتقييم النتائج. يتطلب LLM كقاض هندسة سريعة متقدمة.

قال جويال: “من الصعب الحصول على درجة الماجستير في القانون كقاضٍ بشكل صحيح، وهناك الكثير من المفاهيم الخاطئة حول هذا الموضوع”. “لكن الفكرة الرئيسية هي أنه، كما هو الحال مع المسائل الرياضية، من الأسهل التأكد من صحة الحل بدلاً من حل المشكلة بنفسك.”

تنطبق نفس القاعدة على LLM. من الأسهل بكثير على LLM تقييم المخرجات المنتجة بدلاً من أداء المهمة الأصلية. يتطلب فقط الاستعلام الصحيح.

وقال جويال: “عادة ما يكون التحدي الهندسي هو تكرار الصيغة أو المحرك نفسه لجعله يعمل بشكل جيد”.

الابتكار مع التقييمات القوية

يتطور مشهد LLM بسرعة ويقوم مقدمو الخدمة بإصدار نماذج جديدة باستمرار. سوف ترغب الشركات في ترقية نماذجها أو تغييرها حيث أصبحت النماذج القديمة قديمة وأصبحت النماذج الجديدة متاحة. أحد التحديات الرئيسية هو ضمان بقاء تطبيقك متسقًا عندما يتغير النموذج الأساسي.

مع التقديرات الجيدة، يصبح تغيير النموذج الأساسي سهلاً مثل تشغيل نماذج جديدة من خلال اختباراتك.

“إذا حصلت على درجات جيدة، فإن تغيير النماذج سيكون أمرًا سهلاً للغاية، بل إنه ممتع بالفعل. وإذا لم يكن لديك تقييمات، فهذا أمر فظيع. قال جويال: “الحل الوحيد هو إجراء التقييمات”.

هناك مشكلة أخرى وهي البيانات المتغيرة التي يواجهها النموذج في العالم الحقيقي. مع تغير سلوك العملاء، ستحتاج الشركات إلى تحديث تقديراتها. يوصي جويال بتنفيذ نظام “تسجيل النتائج عبر الإنترنت” الذي يؤدي بشكل مستمر إلى إجراء تقييمات لبيانات العملاء الحقيقية. يسمح هذا النهج للشركات بتقييم أداء نموذجها تلقائيًا بناءً على أحدث البيانات ودمج أمثلة جديدة ذات صلة في مجموعات التقييم الخاصة بها، مما يضمن استمرار أهمية وفعالية تطبيقات LLM الخاصة بها.

مع استمرار النماذج اللغوية في إعادة تشكيل مشهد تطوير البرمجيات، يصبح اعتماد عادات ومنهجيات جديدة أمرًا بالغ الأهمية. يعد تنفيذ التقييمات المخصصة أكثر من مجرد ممارسة فنية؛ إنه تحول في العقلية نحو التطوير الصارم المعتمد على البيانات في عصر الذكاء الاصطناعي. ستكون القدرة على تقييم الحلول القائمة على الذكاء الاصطناعي وتحسينها بشكل منهجي عامل تمييز رئيسي في الأعمال التجارية الناجحة.


مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى