لماذا تهلوس نماذج اللغة ؟ - ورقة بحثية من OpenAI
ما المقصود بـ "الهلوسة"؟
الهلوسة تعني توليد نماذج اللغة لجمل أو معلومات غير صحيحة، لكنها تبدو مقنعة وبثقة عالية. مثال حي: عند سؤال أحد النماذج بعنوان رسالة دكتوراه لشخص بعينه، قد يقدّم النموذج ثلاثة عناوين كلها خاطئة، وكلها بثقة عالية
ما أسباب هذه الهلوسات؟
نقص الاستعداد للاعتراف بعدم المعرفة
يتمّ تدريب نماذج اللغة بتشجيع "التخمين" لتحقيق نتائج أعلى في التقييمات، بدلًا من التعبير عن عدم الثقة أو قول "لا أعلم"
يشبه الأمر اختبار اختيار من متعدد: إن تخمّنت أجابتك قد تكون صحيحة، أما الصمت فمستوى الصفر. لذا يُكافَأ التخمين ضمنياً من خلال معدلات قياس الدقّة.
طبيعة المهمة الإحصائية
نماذج اللغة تقوم بما يُعرف بـ "تقدير الكثافة" (density estimation)، حيث تتعلم نماذج توقع الكلمات التالية بناءً على التوزيعات الإحصائية للنص، دون وعي بمعانيها أو حقيقتها
أنظمة التقييم التقليدية
معظم معايير التقييم لا تمنح قيمة للاعتراف بعدم المعرفة، بل تضع في خانة "خطأ" أي إجابة غير صحيحة، سواء كانت نتيجة تخمين أو اعتراف بالجهل
ثبات الهلوسة حتى في النماذج المتطورة
بالرغم من تحسن نماذج مثل GPT-5، لا تزال الهلوسة قائمة، خاصة في المهام التي تحتاج إلى التفكير المنطقي
ما هي الحلول المقترحة لتقليل الهلوسات؟
إعادة تصميم التقييمات بحيث يكافئ النظام الاعتراف بعدم اليقين أو المطالبة بالمزيد من التوضيح، بدلاً من تشجيع التخمين فقط
تعديل معايير الترتيب في الاختبارات لتقليل تحفيز التخمين، وهو ما قد يؤدي إلى نماذج أكثر تواضعًا ودقة في مخرجاتها.
هل الهلوسة لا مفرّ منها؟
أبحاث نظرية (مثل الموجودة على ArXiv) تشير إلى أن الهلوسة قد تكون جزءًا لا يتجزأ من طبيعة النماذج اللغوية الكبيرة، وغير قابلة للإزالة بالكامل بسبب قيود رياضية وفلسفية.
لماذا هذا الموضوع مهم؟
المهتمون بالموثوقية والسلامة في نماذج الذكاء الاصطناعي يرون أن الحدّ من الهلوسة يعزز الثقة ويُقلّل من المخاطر، خاصة في الاستخدامات الحساسة
للمزيد من التفاصيل، يمكنك قراءة المقال الكامل هنا: لماذا تهذي نماذج اللغة؟
كما يمكنك الاطلاع على الورقة البحثية المرتبطة بالمقال: الورقة البحثية