: إذا أعجبك المحتوى ، فيمكنك متابعة أحد هذه الصفحات لرؤية المزيد من المنشورات المستقبلية
           

GPT-3 OpenAI Paper Review

  |   Source

مقدمة:

بالأسبوع السابق، قامت مجموعة باحثين (30 مؤلف) بنشر ورقة بحثية مطولة هنا بعنوان:

Language Models are Few-Shot Learners

من حوالي 70 صفحة تتحدث عن تجارب على نموذج عصبوني يدعى (اختصار للمحولات مسبقة التدريب التوليدية Generative Pretrained Transformer) GPT-3 أضخم ب 10 مرات من أحدث نموذج سابق (GPT-2) متعلق بمعالجة اللغات الطبيعية عام الأغراض وبعدد محدود من أمثلة التدريب.

تلك المجموعة تعمل ضمن مؤسسة OpenAI التي قامت بنشر العديد من الأبحاث بمجال معالجة اللغات الطبيعية والتعليم المدعم وغيرها. وقد تم التدريب لهذا النموذج الضخم على خوادم مايكروسوفت العملاقة وبشكل تفرعي.

ولكن كيف تم إنشاء وتدريب شبكة بهذه الضخامة، وعلى أي تجهيزات؟ وباستخدام أي حجم من قواعد البيانات؟ وأخيراً ما هو مستوى الأداء للشبكة الناتجة؟

التالي هو شرح عام عما تقوم به الطريقة المقترحة والنتائج العامة للبحث مترجمة بشكل مباشر من الورقة الأصلية باقتضاب، وليس الهدف منه الدخول في التفاصيل التقنية لعمل نموذج التعلم العميق المرتبط. فللقيام بذلك بالإمكان العودة للورقة السابقة.

ملخص الورقة

أثبتت أعمال حديثة أن هناك مكتسبات كثيرة في العديد من مسائل NLP وبياناتها يمكن الحصول عليها عن طريق التدريب المسبق على بيانات نصية ضخمة ومن ثم التدريب الدقيق fine-tunning لمهام بعينها. وعلى الرغم من أن هذه الطرق ليست ذات بنية تدعم المهمات المحددة فإنها تتطلب قواعد بيانات محددة ودقيقة لعشرات آلاف الأمثلة. وعلى النقيض من ذلك، فإنه يمكن للإنسان أن ينجز أي مهمة لغوية بالاعتماد على أمثلة قليلة فقط أو من تعليمات محددة – وهذا ما تصارع نماذج NLP الحالية للوصول إليه.

هنا نبين أن تكبير حجم نماذج NLP يحسن كثيراً من الأداء المرتبط بالعمل المستقل عن المهام والذي يحتاج أمثلة قليلة، وأحياناً يمكن الوصول لمستويات تنافس نتائج أحدث مقاربات المعايرة الدقيقة. تحديداً، تم هنا تدريب شبكة GPT-3 مع 175 مليار بارامتر بشكل أكبر ب 10 مرات من أي نموذج لغة سابق وسيتم اختبار أداءها في ظروف عينات تدريب محدودة few-shots. وسيتم لكل المهام استخدام عينات قليلة للتمرن على مهمة جديدة من خلال التفاعل مع النموذج فحسب. لدى GPT-3 أداء قوي على العديد من قواعد بيانات NLP بما يتضمن الترجمة والإجابة على الأسئلة بالإضافة للعديد من المهام التي تتطلب الاستنباط الفوري أو ملائمة السياق.

إضافة لذلك تم تحديد بعض قواعد البيانات التي لاتزال GPT-3 تعاني ضمنها، بالإضافة لبعض قواعد البيانات التي تواجه فيها GPT-3 مشاكل طرائقية مرتبطة بالتدرب على بيانات الانترنت الضخمة. وأخيراً نجد أن GPT-3 قادرة على توليد مقاطع من مقالات إخبارية والتي يجد مقيم بشري صعوبة في تمييزها عن مقاطع كتبت من قبل مؤلفين بشر. لاحقاً سنناقش الأثر الاجتماعي الأوسع لهذا الاكتشاف عموماً.

ما المقصود ب Few-Shots؟

المصطلح Few-Shot يعود في هذا العمل للإعدادات التي تتطلب أمثلة محدودة للمهمة قيد الاستدلال كتوليف دقيق fine-tunning ، ولكن لا تحديث للأوزان. مثلاً في حالة إكمال الجمل حسب السياق، فيتم إعطاء النموذج عدد محدد K من الأمثلة لجمل وإكمالها ومن ثم إعطاؤه جملة يجب إكمالها من قبله. عادة يكون عدد الأمثلة بين 10 ل 100 ، فهذا هو عدد الأمثلة التي يمكن وضعها في نافذة السياق للنموذج.

الميزة الرئيسية لهذه الطرق هي الكمية الصغيرة من البيانات المحددة للمهمة المطلوبة مقارنة بطرق المعايرة الدقيقة الأخرى. العيب الرئيسي هو أن النتائج كانت حتى الآن أقل جودة كثيراً من نتائج المعايرة الدقيقة ورغم ذلك فإن بيانات محددة للمهمة لاتزال مطلوبة (ولو بكمية أقل).

يتبع النموذج هنا لنمط الطرق هذا، والذي يتضمن تدريباً على بيانات واسعة النطاق لمهام متعددة ومن ثم الإعداد السريع لملائمة مهمة محددة.

بيانات التدريب:

قواعد بيانات اللغات قد تمددت بشكل سريع، متجمعة في قاعدة بيانات Common Crawl التي تحتوي على حوالي تريليون كلمة. وهذا الحجم كاف لتدريب أضخم النماذج بدون الحاجة لتكرار تدريب أي سلسلة نصية مرتين. ولكن رغم ذلك، فقد تبين أن التدريب على نسخ غير منقحة أو مرشحة بشكل خفيف لقاعدة البيانات سيكون بنوعية منخفضة أكثر من قاعدة بيانات منقحة جيداً.

توليد مقالات الأخبار:

قامت الأبحاث السابقة للنماذج التوليدية للغات باختبار لقدرتها على توليد مقالات أخبار مصطنعة من خلال الاعتيان الشرطي من النموذج بعد إعطاء دخل من قبل الإنسان يتألف من عبارة أولى لقصة إخبارية. بالمقارنة مع البحث المعنون:

Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners, 2019.

فإن البيانات المعطاة لتدريب نموذج GPT-3 هي أقل وزناً لناحية مقالات الأخبار، ولذلك فإعطاء جملة أولية من مقال إخباري قد يتم تفسيره (من قبل النموذج) على أنه بداية تغريده، وسيقوم بإعطاء الردود عليها. ولذلك تم إعطاء النموذج ثلاث نماذج لمقالات أخبار سابقة وأخيراً عنواناً رئيسياً وفرعياً للمقال الإخباري المطلوب، ومن ثم كان النموذج قادراً على توليد مقالات قصيرة تحت فئة الأخبار.

لكي نقارن مدى قدرة الإنسان على اكتشاف المقالات المولدة بوساطة النموذج، تم اختيار 25 عنوان رئيسي وفرعي لمقالات من موقع www.newser.com (متوسط طولها 215 كلمة). بعد ذلك تم توليد مقالات الأخبار من خلال نماذج عصبونية يتراوح عدد بارامتراتها بين 125 مليون ل 175 مليار (متوسط طولها 200). لكل نموذج كان هناك 80 مشاركاً من الولايات المتحدة ، مع اختبار يتألف من تلك العناوين الحقيقة ملحقة إما بمقال من تأليف إنسان أو من تأليف النموذج. وتم الطلب من المساهمين اختيار هل كان المقال:

محتمل جداً أنه مكتوب من قبل إنسان.

أكثر احتمالاً أنه مكتوب من قبل إنسان

لا أعرف

أكثر احتمالاً أنه مكتوب من قبل آلة.

محتمل جداً أنه مكتوب من قبل آلة.

المقالات المختارة لم تكن موجودة ضمن بيانات التدريب، وخرج النموذج (من المقالات) تم تنسيقه واختياره برمجياً بدون تدخل الإنسان.

متوسط دقة الإنسان (نسبة الإسنادات الصحيحة والإسنادات غير المحايدة للمشارك) لاكتشاف أن المقالات السيئة عن عمد كانت مكتوبة بوساطة آلة كان 86% .

على الجهة الأخرى ، فإن نفس النسبة لاكتشاف المقالات المؤلفة من قبل النموذج ذو 175 مليار بارامتر كانت بالكاد فوق المصادفة 52% . وعموماً فإن قدرة الإنسان على اكتشاف النصوص المؤلفة من قبل الآلة تبدو أضعف مع ازدياد حجم النموذج. وهذا صحيح أيضاً بغض النظر عن الحقيقة أن المشاركين صرفوا وقتا أطول لدراسة المقالات المؤلفة من نماذج أضخم.

الخاتمة:

تم في هذا النموذج ذو ال 175 مليار بارامتر لمعالجة اللغات إظهار أداء قوي للعديد من مسائل NLP والعديد من قواعد البيانات في إعدادات مختلفة، بلا أمثلة أو بمثال واحد أو بأمثلة محدودة، وفي بعض الحالات كان الأداء يصل لمستوى النماذج المعايرة بدقة fine-tunned لمهمة بعينها، بالإضافة لتوليد نتائج ممتازة النوعية وبأداء قوي لمهام معرفة آنياً.

Comments powered by Disqus