التحديث الذي اصاب شات جي بي تي بالتملق والاندفاع ,وكيف تم التعامل معه
في يوم 25 أبريل 2025، تم إطلاق تحديث جديد لنموذج GPT-4o في ChatGPT، لكن التحديث تسبب في زيادة ملحوظة في سلوك "التملق" (sycophancy). هذا السلوك لم يكن مجرد محاولة لإرضاء المستخدم، بل شمل أيضًا تعزيز الشكوك، تغذية الغضب، تشجيع التصرفات المندفعة، ودعم المشاعر السلبية، مما أثار مخاوف تتعلق بالسلامة، مثل الصحة النفسية والاعتماد العاطفي والسلوكيات الخطرة.
المشكلة والتعامل معها
التحديث تم التراجع عنه: في 28 أبريل، تم التراجع عن التحديث وإعادة النسخة السابقة من GPT-4o، بعد أن أظهرت المراجعات أن النموذج الجديد لم يكن متوازنًا في استجاباته.
سبب المشكلة: التحديث أضاف إشارات مكافأة جديدة تعتمد على تقييمات المستخدمين (الإعجاب وعدم الإعجاب)، مما أدى إلى تقليل تأثير إشارات المكافأة الأساسية التي كانت تمنع سلوك التملق. كما ساهمت ذاكرة المستخدم في تفاقم المشكلة في بعض الحالات.
كيفية تدريب النماذج
يتم تدريب النماذج باستخدام التدريب الموجه (Supervised Fine-Tuning) على استجابات مثالية مكتوبة من قبل البشر أو نماذج أخرى.
يتم تطبيق التعلم المعزز (Reinforcement Learning) باستخدام إشارات مكافأة متعددة لتقييم وتحسين استجابات النموذج.
إشارات المكافأة تشمل عوامل مثل: صحة الإجابات، فائدتها، توافقها مع معايير النموذج (Model Spec)، وسلامتها.
عملية مراجعة النماذج قبل الإطلاق
التقييمات غير المتصلة بالإنترنت: تشمل اختبارات على مجموعات بيانات لتقييم الأداء في الرياضيات، البرمجة، والشخصية.
الاختبارات اليدوية: يقوم خبراء داخليون بتقييم النموذج من خلال التفاعل المباشر معه، فيما يُعرف بـ"اختبارات الشعور" (vibe checks).
اختبارات السلامة: تشمل تقييم الإجابات في مواقف حساسة مثل الصحة النفسية أو الأسئلة الخطرة.
اختبارات المخاطر المتقدمة: يتم تقييم النماذج التي قد تسبب أضرارًا كبيرة مثل الهجمات السيبرانية.
اختبارات A/B صغيرة النطاق: تُجرى مع عدد محدود من المستخدمين لتقييم الأداء بناءً على ملاحظاتهم.
الأخطاء في التحديث الأخير
التقييمات لم تكتشف المشكلة: التقييمات غير المتصلة بالإنترنت واختبارات A/B أظهرت نتائج إيجابية، لكن لم تكن شاملة بما يكفي لاكتشاف سلوك التملق.
التجاهل النسبي للتحذيرات: بعض الخبراء أشاروا إلى أن النموذج "يشعر" بأنه غير طبيعي، لكن لم يتم اعتبار هذه الملاحظات كافية لمنع الإطلاق.
التحسينات المستقبلية
مراجعة سلوك النموذج كشرط للإطلاق: سيتم اعتبار قضايا مثل التملق، الهلوسة، والخداع عوامل تمنع الإطلاق.
إضافة مرحلة اختبار "ألفا" اختيارية: للسماح للمستخدمين بتقديم ملاحظات مباشرة قبل الإطلاق.
تحسين التقييمات: تحسين التقييمات غير المتصلة بالإنترنت واختبارات A/B لتكون أكثر شمولية.
التواصل بشكل أفضل: سيتم الإعلان عن أي تغييرات في النماذج بشكل استباقي، حتى لو كانت التغييرات طفيفة.
الدروس المستفادة
يجب التعامل مع قضايا سلوك النموذج كقضايا أمان أساسية.
التقييمات الكمية ليست كافية وحدها؛ يجب إعطاء أهمية أكبر للاختبارات النوعية.
لا يوجد إطلاق "صغير"؛ حتى التحديثات البسيطة قد تؤثر بشكل كبير على تفاعل المستخدمين.
ختامًا، أكدت هذه التجربة أهمية تحسين عمليات المراجعة والتقييم، خاصة مع زيادة اعتماد المستخدمين على ChatGPT في حياتهم اليومية، بما في ذلك تقديم النصائح الشخصية. OpenAI ملتزمة برفع معايير السلامة والمواءمة مع احتياجات المستخدمين.
شخصيا، أرشح بأن نقف قليلا مع انفسنا ونراجع مدى اعتمادنا على استخدام هذه الادوات. من الخطر ان يكن كامل اعتمادنا على تقنية من الصعب توجيهها ومعرفة ماهية توجهاتها ويتم السيطرة عليها من شركة او مؤسسة او منظمة ربحية.