تقنية DyT: بديل فعال لطبقات التطبيع في شبكات الترانسفورمرز
الورقة البحثية دي بتطرح فكرة جديدة وبسيطة اسمها "Dynamic Tanh (DyT)" كبديل عن طبقات الـNormalization (زي LayerNorm و RMSNorm) المستخدمة حالياً بشكل أساسي في شبكات الـTransformers.
الفكرة ببساطة إن الباحثين لاحظوا إن طبقات التطبيع (Normalization) في شبكات الـTransformer بتشتغل بطريقة مشابهة جداً لدالة tanh (دالة على شكل حرف S)
وبتعمل على التحكم في قيم الـactivations وتقليل القيم المتطرفة (extreme activations). عشان كده، الباحثين اقترحوا DyT كالتالي:
DyT(x)=γ×tanh(αx)+βDyT(x)=γ×tanh(αx)+β
هنا α قيمة متغيرة ممكن الشبكة تتعلمها، وبتتحكم في مدى (range) القيم الداخلة.
γ و β هي معاملات قابلة للتعلم زي اللي بتستخدم في طبقات الـNormalization التقليدية.
الباحثين جرّبوا DyT على نماذج مختلفة من Transformers على مهام كتيرة زي الـvision (رؤية)، والـspeech (صوتيات)، واللغة (language models)، وحتى نماذج الـDNA، ولقوا إن DyT قدمت نفس الأداء (أو أفضل شوية) من الطبقات التقليدية بدون احتياج كبير لتغيير في إعدادات التدريب أو عمل tuning. كمان اتضح إن DyT بتوفر وقت في التدريب والاستنتاج، وده معناه إنها أسرع وأكتر كفاءة من الطبقات التقليدية.
اللي ممكن نطلع بيه من هنا ان لسة فيه مجال للتطوير في عالم الترانسفورمرز ونماذج اللغة LLM
اللينك: https://arxiv.org/abs/2503.10622