انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة. يتعلم أكثر
ظهرت نماذج اللغات الكبيرة أحادية البت (LLMs) كنهج واعد لجعل الذكاء الاصطناعي التوليدي أكثر سهولة وبأسعار معقولة. من خلال تمثيل وزن النموذج بعدد محدود جدًا من البتات، تقلل LLMs ذات 1 بت بشكل كبير من الذاكرة والموارد الحسابية المطلوبة لتشغيلها.
أبحاث مايكروسوفت يدفع حدود LLMs ذات 1 بت من خلال بنية BitNet الخاصة به. في أ ورقة جديدةيقدم الباحثون BitNet a4.8، وهي تقنية جديدة تعمل على تحسين كفاءة LLMs ذات 1 بت دون التضحية بأدائها.
صعود LLMs 1 بت
تستخدم LLMs التقليدية أرقام الفاصلة العائمة ذات 16 بت (FP16) لتمثيل معلماتها. وهذا يتطلب الكثير من موارد الذاكرة والحوسبة، مما يحد من إمكانيات الوصول إلى LLMs وتنفيذها. تعالج LLMs أحادية البت هذا التحدي عن طريق تقليل دقة أوزان النماذج بشكل كبير مع مطابقة أداء النماذج كاملة الدقة.
استخدمت نماذج BitNet السابقة قيم 1.58 بت (-1، 0، 1) لتمثيل أوزان النموذج وقيم 8 بت للتنشيط. أدى هذا النهج إلى تقليل تكاليف الذاكرة والإدخال/الإخراج بشكل كبير، لكن التكلفة الحسابية لمضاعفة المصفوفة ظلت تمثل عنق الزجاجة، كما يمثل تحسين الشبكات العصبية ذات معلمات البت المنخفضة للغاية تحديًا.
هناك طريقتان تساعدان في حل هذه المشكلة. يؤدي التناثر إلى تقليل عدد العمليات الحسابية عن طريق تقليص عمليات التنشيط إلى أحجام أصغر. وهذا مفيد بشكل خاص في LLMs لأن قيم التنشيط تميل إلى أن يكون لها توزيع طويل الذيل، مع عدد قليل من القيم الكبيرة جدًا والعديد من القيم الصغيرة.
من ناحية أخرى، يستخدم التكميم عددًا أقل من البتات لتمثيل عمليات التنشيط، مما يقلل من التكاليف الحسابية وتكاليف الذاكرة لمعالجتها. ومع ذلك، فإن مجرد تقليل دقة عمليات التنشيط يمكن أن يؤدي إلى أخطاء كبيرة في القياس الكمي وتدهور الأداء.
علاوة على ذلك، فإن الجمع بين التشتت والتكميم يمثل تحديًا ويطرح مشكلات خاصة عند تدريب LLMs ذات 1 بت.
قال فورو وي، مدير الأبحاث الشريك في Microsoft Research، لـ VentureBeat: “يقدم كل من التكميم والتشتت عمليات لا يمكن تمييزها، مما يجعل حساب التدرج أثناء التدريب أمرًا صعبًا بشكل خاص”.
يعد حساب التدرج ضروريًا لحساب الأخطاء وتحديث المعلمات عند تدريب الشبكات العصبية. كان على الباحثين أيضًا التأكد من إمكانية تنفيذ تقنياتهم بكفاءة على الأجهزة الموجودة مع الاحتفاظ بفوائد كل من التشتت والتكميم.
بيت نت a4.8
يعالج BitNet a4.8 تحديات التحسين التي تواجهها LLMs ذات 1 بت من خلال ما وصفه الباحثون بـ “التكميم الهجين والتشتت”. لقد حققوا ذلك من خلال تصميم بنية تطبق بشكل انتقائي التكميم أو التشتت على مكونات مختلفة من النموذج بناءً على نمط محدد لتوزيع عمليات التنشيط. تستخدم البنية عمليات تنشيط 4 بت للمدخلات إلى طبقات شبكة الانتباه والتغذية الأمامية (FFN). ويستخدم تناثر 8 بت للحالات المتوسطة، مع الاحتفاظ فقط بأعلى 55% من المعلمات. تم أيضًا تحسين البنية للاستفادة من الأجهزة الموجودة.
قال وي: “مع BitNet b1.58، يتحول عنق الزجاجة الاستدلالي لـ LLMs ذات 1 بت من الذاكرة/الإدخال والإخراج إلى الحساب، والذي يقتصر على بتات التمكين (أي 8 بت في BitNet b1.58)”. “في BitNet a4.8، نقوم بدفع بتات التمكين إلى 4 بت حتى نتمكن من استخدام النوى 4 بت (على سبيل المثال INT4/FP4) للحصول على سرعة 2x لاستدلال LLM على وحدات معالجة الرسومات. إن الجمع بين أوزان نموذج 1 بت من BitNet b1.58 وعمليات التنشيط 4 بت من BitNet a4.8 يعالج بكفاءة كلاً من الذاكرة/الإدخال والقيود الحسابية في استدلال LLM.
يستخدم BitNet a4.8 أيضًا قيم 3 بت لتمثيل حالة المفتاح (K) والقيمة (V) في آلية الانتباه. تعد ذاكرة التخزين المؤقت KV مكونًا رئيسيًا في نموذج المحولات. يخزن تمثيلات الرموز المميزة السابقة في صفيف. من خلال تقليل دقة قيمة ذاكرة التخزين المؤقت KV، يقلل BitNet a4.8 من متطلبات الذاكرة، خاصة عند التعامل مع التسلسلات الطويلة.
وعد BitNet a4.8
تظهر النتائج التجريبية أن BitNet a4.8 يوفر أداءً مشابهًا لسابقه BitNet b1.58 مع استخدام قدر أقل من الحوسبة والذاكرة.
بالمقارنة مع نماذج Llama الدقيقة تمامًا، فإن BitNet a4.8 يقلل من استخدام الذاكرة بعامل 10 ويحقق تسريعًا بمقدار 4x. بالمقارنة مع BitNet b1.58، فإنه يحقق سرعة 2x من خلال نواة التنشيط 4 بت. لكن التصميم يمكن أن يقدم أكثر من ذلك بكثير.
وقال وي: “يعتمد التحسين الحسابي المقدر على الأجهزة الموجودة (GPU).” “مع تحسين الأجهزة خصيصًا لمجالات LLM ذات 1 بت، يمكن تحسين المكاسب الحسابية بشكل كبير. تقدم BitNet نموذجًا جديدًا للحوسبة يقلل من الحاجة إلى مضاعفة المصفوفات، وهو التركيز الأساسي في تحسين تصميم الأجهزة الحالي.
كفاءة BitNet a4.8 تجعلها مناسبة بشكل خاص لنشر LLMs على الحافة وعلى الأجهزة المحدودة الموارد. يمكن أن يكون لهذا آثار مهمة على الخصوصية والأمان. ومن خلال تمكين LLM على الجهاز، يمكن للمستخدمين الاستفادة من قوة هذه النماذج دون الحاجة إلى إرسال بياناتهم إلى السحابة.
يواصل وي وفريقه عملهم على LLMs ذات 1 بت.
وقال وي: “إننا نواصل تطوير أبحاثنا ورؤيتنا لعصر 1 بت LLMs”. “بينما ينصب تركيزنا الحالي على بنية النموذج ودعم البرامج (أي bitnet.cpp)، فإننا نهدف إلى استكشاف التصميم المشترك والتطور المشترك لبنية النموذج والأجهزة لفتح إمكانات LLM ذات 1 بت بشكل كامل.”