نظام قياس الأداء الجديد في فيسبوك يطلب من البشر استجواب الذكاء الاصطناعي

تعد المقارنة المعيارية خطوة حاسمة في تطوير ذكاء اصطناعي أكثر تعقيدًا، إنه يوفر تجريدًا مفيدًا لقدرات الذكاء الاصطناعي ويسمح للباحثين بفهم قوي لمدى جودة أداء النظام في مهام محددة، لكنهم لا يخلون من عيوبهم.

بمجرد أن تتقن الخوارزمية مجموعة البيانات الثابتة من معيار معين، يتعين على الباحثين إجراء العملية التي تستغرق وقتًا طويلاً لتطوير واحدة جديدة لزيادة تحسين الذكاء الاصطناعي.

مع تحسن الذكاء الاصطناعي بمرور الوقت، كان على الباحثين بناء معايير جديدة بوتيرة متزايدة، كما يشير

منشور على فيسبوك الخميس، "بينما استغرق مجتمع البحث حوالي 18 عامًا لتحقيق أداء على مستوى الإنسان على MNIST وحوالي ست سنوات لتجاوز البشر على ImageNet، فقد استغرق الأمر حوالي عام تقريبًا للتغلب على البشر في معيار GLUE لفهم اللغة".

كما قد تحتوي هذه المعايير على تحيزات يمكن للخوارزمية استغلالها لتحسين درجاتها - مثل التعرف على الصور، وتجاهل أنظمة الذكاء الاصطناعي الاختلافات السياقية

الدقيقة بين المقدار والعدد والإجابة ببساطة على الإثنين.

لذلك اتخذ مختبر أبحاث الذكاء الاصطناعي FAIR التابع لفيسبوك نهجًا جديدًا لقياس الأداء، لقد وضعوا البشر في الحلقة للمساعدة في تدريب أنظمة الذكاء الاصطناعي الخاصة بمعالجة اللغة الطبيعية NLP بشكل مباشر وديناميكي.

الفكرة بسيطة إذا تم تصميم نموذج البرمجة اللغوية العصبية للتحدث مع البشر، فما هي أفضل طريقة لمعرفة مدى أدائه من التحدث إليه، يعتمد هذا النظام، الذي يُطلق عليه اسم Dynabench، على الأشخاص لطرح سلسلة من خوارزميات البرمجة اللغوية العصبية NLP للتحقيق في الأسئلة اللغوية والتحدي في محاولة لإخراجهم، كلما قل خداع الخوارزمية، كان أداء عملها أفضل.

0 تعليق