فاجأت النتائج التي توصلت إليها ورقة بحثية جديدة بشأن "الذكاء الاصطناعي التوليدي"، القائمين على تطوير هذه التكنولوجيا، حيث تبين أن نماذج اللغة الكبيرة التي يشغلها الذكاء الاصطناعي التوليدي مثل "ChatGPT" و"Gemini" والتي تتغذى على البيانات، تواجه عيباً قاتلاً يتمثل بقدرة هذه النماذج على تسميم نفسها بنفسها.
ففي الوقت الذي يرى فيه أركان صناعة التكنولوجيا، أن تدريب أنظمة الذكاء الاصطناعي على كميات كبيرة من البيانات المنتشرة عبر الإنترنت، سيسمح لهذه الأنظمة بالتفوق على البشر في مرحلة لاحقة، حذّر علماء من جامعة أكسفورد وجامعات أخرى، عبر ورقة بحثية تم نشرها في العدد الأخير من مجلة العلوم المرموقة "Nature"، من أن استخدام "البيانات الاصطناعية" لتدريب الذكاء الاصطناعي التوليدي، يمكن أن يؤدي إلى تدهور دقة هذه الأنظمة إلى حد يجعلها عديمة الفائدة.
وبحسب تقرير نشرته "بلومبرغ" واطلع عليه موقع "اقتصاد سكاي نيوز عربية"، فقد اكتشف الباحثون أنه عندما يتم تدريب أنظمة الذكاء الاصطناعي، باستخدام بيانات تم إنشاؤها بواسطة الذكاء الاصطناعي، فإن أداء هذه الأنظمة يتدهور بشكل ملحوظ، وهي الظاهرة التي يطلق عليها الخبراء اسم "انهيار النموذج".
ما هو انهيار النموذج؟
تعتمد برامج الدردشة التي تعمل بالذكاء الاصطناعي مثل ChatGPT على نماذج لغوية ضخمة، تم تدريبها على تريليونات البيانات التي تم إنشاؤها من قبل الإنسان، وقد تم الاستحصال على هذه البيانات من صفحات الويب والمقالات، والتعليقات المنتشرة على شبكة الانترت.
وبفضل هذه الكميات الضخمة من البيانات، تمكنت شركات "أوبن أيه آي" و"ألفابت" و"ميتا" وغيرها من الشركات، من تصميم برامج يمكنها تقديم إجابات واضحة على استفسارات المستخدمين.
ولكن ولإشباع شهية برامج الذكاء الاصطناعي التوليدي التي لا تشبع من التغذية بالبيانات، حاول الباحثون وبشكل متزايد في الآونة الأخيرة، تزويد هذه البرامج ببيانات "اصطناعية"، أي من صنع الذكاء الاصطناعي نفسه، ليتبين للمراقبين أن هذه البرامج تنهار وتنتج معلومات مشوهة عندما يتم تدريبها على محتوى لم يصنعه البشر.
وقد شبه الباحثون هذه الظاهرة بتسميم الذكاء الاصطناعي لنفسه.
ماذا وجدت الورقة البحثية؟
في الورقة البحثية الجديدة، وجد الباحثون من أكسفورد وكامبريدج وجامعات أخرى أن برامج الذكاء الاصطناعي المدربة بمحتوى تم إنشاؤه بواسطة الذكاء الاصطناعي تصدر نتائج غير منطقية، لتتفاقم هذه المشكلة في كل مرة يتم فيها تدريب هذه البرامج على بيانات اصطناعية، مما يجعل النتائج التي تزود بها المستخدمين بعيدة كل البعد عن الواقع وأقرب إلى الهراء.
وبحسب المؤلف الرئيسي للورقة البحثية إيليا شوميلوف وفريقه، فإن الأمر يصبح أسوأ في كل مرة يتم فيها تغذية برامج الذكاء الاصطناعي ببيانات اصطناعية، لينتهي الأمر ببيانات ملوثة وبرامج لا تدرك الواقع.
وفي أحد الأمثلة على ما حصل، أظهرت الورقة البحثية، أن برنامج لغوي للذكاء الاصطناعي تم تدريبه عدة مرات على بيانات تم إنشاؤها بواسطة الذكاء الاصطناعي، قام بتحويل استفسار عن الهندسة المعمارية البريطانية التاريخية إلى مناقشة غير مفهومة عن الأرانب البرية.
ما مدى خطورة انهيار النموذج؟
تشير الورقة البحثية إلى أن برامج الذكاء الاصطناعي المستقبلية، سيتم تدريبها حتماً على البيانات التي أنتجها أسلافها، حيث تنتشر الكتابات والصور التي تم استحداثها بواسطة الذكاء الاصطناعي عبر الإنترنت بشكل كبير، ولذلك فإن مشكلة "انهيار النموذج" يجب أن تؤخذ على محمل الجد، إذا أراد العالم الحفاظ على فوائد برامج الذكاء الاصطناعي، ومنع عرقلة تطورها.
هل هناك حل؟
وفقاً للباحثين، من الضروري لمطوري الذكاء الاصطناعي، تأمين وصول برامجهم إلى البيانات عالية الجودة من صنع الإنسان، والتي لم يتم تلويثها بمحتوى الذكاء الاصطناعي، فرغم أن القيام بهذا الأمر يعد مهمة مكلفة، إلا أنه وحتى الآن لا توجد طريقة أخرى للحفاظ على دقة برامج الذكاء الاصطناعي.
ويقترح الباحثون أن يعمل مطورو برامج الذكاء الاصطناعي، على التنسيق فيما بينهم من أجل فهم مصدر البيانات التي يتهافتون لجمعها عبر الإنترنت.
لماذا اللجوء للبيانات الاصطناعية؟
يقول المحلل والكاتب المختص بالذكاء الاصطناعي ألان القارح، في حديث لموقع "اقتصاد سكاي نيوز عربية"، إن نتائج الورقة البحثية الجديدة، يمكن اعتبارها "مشؤومة" لصناعة الذكاء الاصطناعي التوليدي، وأتت لتزيد الشكوك حول المسار الذي تسلكه هذه التكنولوجيا، في وقت تتساءل فيه الأسواق عما إذا كانت الاستثمارات الضخمة، التي يتم ضخها في تطوير الذكاء الاصطناعي التوليدي، ستؤتي ثمارها في النهاية، مشيراً إلى أن شركات التكنولوجيا أصبحت تلجأ للبيانات الاصطناعية لتجنب استخدام بيانات الأفراد والمؤسسات، بسبب مواجهتها لقضايا انتهاك خصوصية تتعلق بحقوق النشر، ولكن هذه الشركات وقعت في مشكلة أخرى، وهي تدهور جودة البرامج وانهيارها.
مراحل انهيار الذكاء الاصطناعي
يشرح القارح أن انهيار برامج الذكاء الاصطناعي يتم على مرحلتين، المرحلة الأولى أو ما يسمى المرحلة المبكرة، ويمكن ملاحظته في عمومية وعدم وضوح وتباين المعلومات التي تقدمها هذه البرامج، ثم يأتي انهيار المرحلة الثانية أو المرحلة المتأخرة، عندما تبدأ خلالها برامج الذكاء الاصطناعي في تفسير الواقع بشكل خاطئ، وارتكاب أخطاء جسيمة وذلك نتيجة تدربها لوقت طويل على بيانات ومعلومات، أنتجتها في المرحلة الأولى من الإنهيار، لافتاً إلى أن عملية "انهيار النموذج" تتم على مراحل وتؤدي إلى تلوث البيانات على مر الأجيال، قبل أن تصل إلى مرحلة الانهيار التام والتي تتجسد بتقديم البرامج لإجابات لا علاقة لها بالسؤال المطروح.
معلومات "معاد تدويرها"
وبحسب القارح فإن البيانات الاصطناعية، يمكن أن تتسبب بعقبات كبيرة لبرامج الذكاء الاصطناعي، نظراً لكونها تعتمد على محتوى ليس بجديد وغير مبتكر، فالبيانات الاصطناعية هي معلومات خضعت لما يشبه عملية "إعادة التدوير"، لتتحول هذه البيانات وبعد عدة عمليات من إعادة التدوير، إلى معلومات مشوهة وغير متسقة، وهذا ما يضع برامج الذكاء الاصطناعي عندها في حيرة من أمرها، ويدفعها إلى تقديم إجابات غير مفهومة، مع فقدانها لزمام الأمور. في المقابل فإن البيانات المرتبطة بالانسان دائماً ما تكون متجددة ومبتكرة وتحتوي على رأي واضح وليس رأياً رمادياً مثل البيانات الاصطناعية، وبالتالي تساهم جميع هذه العناصر في جعل الذكاء الاصطناعي يقدم إجابات دقيقة، وملائمة عند الاعتماد على معلومات البشر.
فقدان الثقة بالذكاء الاصطناعي
من جهته يقول المحلل التقني جو زغبي إن فهم التأثيرات بعيدة المدى لمشكلة "انهيار النموذج"، أمر أساسي لتطوير وتعزيز فرص نجاح مشاريع الذكاء الاصطناعي التوليدي في المستقبل، فتفاقم هذه المشكلة وبقاؤها دون حل، سيزيد من التكاليف المرتبطة بتطوير هذه التكنولوجيا، وسيؤدي إلى فقدان الثقة من قبل العملاء والشركاء، ما سيضع مطوري الذكاء الاصطناعي أمام احتمال فشل مشاريعهم، وعدم القدرة على تحقيق أهدافهم التكنولوجية والتجارية.
بيانات البشر هي الحل
ويؤكد زغبي أن البيانات المرتبطة بالتفاعلات البشرية، ستكون ذات قيمة متزايدة في السنوات المقبلة، وهذا ما يؤكد على الدور المهم الذي يجمع بين البشر والآلة في المستقبل، فبرامج الذكاء الاصطناعي تحتاج لبيانات الإنسان كي تتفاعل بالشكل الصحيح، وتقوم بتقديم معلومات صحيحة بسرعة قياسية غير موجودة لدى البشر، ولذلك على شركات تطوير الذكاء الاصطناعي الاعتماد على سياسات مرنة، للتغلب على مشكلة "انهيار النموذج" من خلال الاعتماد على البيانات البشرية، مشيراً إلى أن شركة OpenAI أنفقت ملايين الدولارات للدخول في شراكات مع ناشرين، مثل News Corp و Axel Springer، والحصول منها على تراخيص تتيح لها تدريب ChatGPT على بيانات بشرية إدراكاً منها أن الحل الأمثل لهذه المشكلة، يكمن في هذا الاتجاه.