الذكاء العام الاصطناعي ليس متعدد الوسائط: لماذا لا تكفي النماذج الحالية؟

في عالم يتسارع فيه تطور الذكاء الاصطناعي، يبدو أن البعض قد استسلم لإغراء فكرة أن الذكاء العام الاصطناعي أصبح على بعد خطوات فقط. يقول تيري وينوغراد في مقولة عميقة: “عندما نستخدم اللغة كنموذج للتفكير، نفقد الفهم الضمني المتجسد الذي يدعم ذكاءنا”. هذه العبارة تلمس جوهر إشكالية كبرى تواجه مسارنا نحو بناء ذكاء حقيقي يشبه ذكاء الإنسان.

الذكاء العام الاصطناعي ليس متعدد الوسائط

وهم الفهم لدى النماذج اللغوية الكبيرة

لقد حققت النماذج التوليدية الحديثة نجاحات مذهلة، مما دفع البعض للاعتقاد بأنها تمثل الطريق المباشر نحو الذكاء العام. لكن هذه النماذج تتعارض مع أبسط مفاهيمنا عن الذكاء البشري. لقد ظهرت ليس لأنها حلول مدروسة لمشكلة الذكاء، بل لأنها استفادت بفعالية من الأجهزة التي نملكها بالفعل. لقد أغرى نجاحها البعض للاعتقاد بأن توسيع النماذج متعددة الوسائط هو الحل السحري.

لكن هذا المنظور يتجاهل حقيقة أساسية. الذكاء العام الحقيقي يجب أن يكون عامًا عبر جميع المجالات، بما في ذلك القدرة على حل مشكلات تنشأ في الواقع المادي، مثل إصلاح سيارة أو فك عقدة أو تحضير طعام. ما نحتاجه لهذه المشكلات هو شكل من الذكاء متجذر في نموذج للعالم المادي، وليس مجرد معالجة للرموز.

كيف تتظاهر النماذج اللغوية بفهم العالم؟

يدعي البعض أن النماذج اللغوية الكبيرة تتعلم نموذجًا للعالم من خلال مهمة التنبؤ بالرمز التالي. لكن الأدلة تشير إلى أن هذه النماذج تتعلم في الغالب مجموعة من الاستدلالات للتنبؤ بالتسلسلات، مما يمنحها فهمًا سطحيًا للواقع. تخيل أنك تحاول فهم لعبة الشطرنج من خلال قراءة تعليقات المباريات فقط، دون أن ترى القطع تتحرك على الرقعة أبدًا.

هناك دراسة مشهورة حول نموذج “أوثيلو جي بي تي” أظهرت أنه يمكن استنتاج حالة رقعة اللعبة من الحالات الداخلية للنموذج. لكن المشكلة أن لعبة أوثيلو تعيش في عالم الرموز، بينما العالم المادي لا يمكن اختزاله بالكامل إلى وصف لغوي. لا يمكنك كنس الأرضية أو قيادة سيارة باستخدام القلم والورقة فقط. بعض المشكلات تتطلب فهمًا جوهريًا يتجاوز ما يمكن قوله عنها.

درس مرّ يعاد النظر فيه

يشير “الدرس المر” لريتش ساتون إلى أن الأساليب التي تستفيد من الموارد الحسابية ستتفوق على تلك التي لا تفعل ذلك. لقد فُسر هذا أحيانًا على أنه دعوة لتجنب أي افتراضات حول بنية الذكاء الاصطناعي. لكن هذا التفسير مضلل وغير منتج.

نقاش حول الذكاء العام الاصطناعي

في الواقع، كانت الافتراضات البنيوية البشرية وراء العديد من الإنجازات الكبرى. الشبكات العصبية التلافيفية افترضت ثبات الترجمة في الصور، وآلية الانتباه في المحولات افترضت وجود علاقات طويلة المدى بين الرموز في الجملة. السؤال الحقيقي هو: كيف نستفيد من هذا الدرس في سعينا نحو الذكاء العام؟

مشكلة النهج متعدد الوسائط الحالي

يحاول النهج متعدد الوسائط الحالي بناء ذكاء عام من خلال جمع نماذج متخصصة لكل وسيط (لغة، صورة، فعل). لكن هذا يشبه محاولة بناء سيارة فورمولا 1 بتدريب تريليون نملة لمليار سنة. قد تنجح في النهاية، لكن العملية ستكون غير فعالة بشكل صادم.

هناك مشكلات عميقة في هذا النهج. أولاً، يتم فصل الروابط الطبيعية بين الوسائط بشكل مصطنع. في الإنسان، تتداخل القدرات على القراءة والرؤية والتحدث والحركة في هياكل إدراكية مشتركة. ثانيًا، يتم تدريب النماذج على نسخ البنية المفاهيمية البشرية الحالية، بدلاً من تعلم القدرة العامة على تكوين مفاهيم جديدة من تلقاء نفسها.

الأخطر أن “المعنى” في هذه النماذج ليس في المتجه الذي يتم ترميز الإدراك فيه، بل في طريقة معالجة وحدات فك الترميز لهذا المتجه. طالما أن أهداف التدريب تختلف بين الوسائط، سيظل “المعنى” لامركزيًا وغير متناسق.

نحو ذكاء متجسد حقيقي

بدلاً من افتراض بنية محددة مسبقًا للوسائط المنفصلة، يجب أن نصمم إطارًا تظهر فيه المعالجة الخاصة بكل وسيط بشكل طبيعي. يمكننا، على سبيل المثال، معالجة الصور والنصوص والفيديو باستخدام نظام إدراك موحد، وإنتاج أفعال لنص أو لتفاعل مع البيئة باستخدام نظام فعل موحد.

قد نخسر بعض الكفاءة في هذا النهج، لكننا سنكسب قدرة إدراكية مرنة حقيقية. لقد حللنا بالفعل أصعب قطعة رياضية في لغز الذكاء العام: اكتشاف المقرّبات العالمية للدوال. ما تبقى هو جرد الوظائف التي نحتاجها وتحديد كيفية ترتيبها في كل متماسك.

هذه مشكلة مفاهيمية في جوهرها، وليست رياضية. المستقبل لا ينتمي إلى النماذج التي تجمع الوسائط مثل رقعة مرقعة، بل إلى الأنظمة التي تتعلم الفهم من خلال التفاعل مع العالم كما نفعل نحن. ربما يكون الطريق أطول، لكنه الوحيد الذي يؤدي إلى وجهتنا الحقيقية.

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

وهم الفهم لدى النماذج اللغوية الكبيرة

كيف تتظاهر النماذج اللغوية بفهم العالم؟

درس مرّ يعاد النظر فيه

مشكلة النهج متعدد الوسائط الحالي

نحو ذكاء متجسد حقيقي

You Might Also Like

لماذا لا يناسب نموذج الدفع الواحد جميع عمليات التجارة الإلكترونية B2B

دليلك الشامل لتحضير مدونتك لاستقبال العام الجديد

دليل شامل لأنواع منتجات ووكوميرس وكيفية استخدامها

Leave a Reply Cancel reply