يعمل الذكاء الاصطناعي التوليدي على إعادة بناء مقاطع الفيديو التي يشاهدها الأشخاص من خلال قراءة نشاط الدماغ

يعمل الذكاء الاصطناعي التوليدي على إعادة بناء مقاطع الفيديو التي يشاهدها الأشخاص من خلال قراءة نشاط الدماغ

عقدة المصدر: 2679952

القدرةty من الآلات ل اقرأ عقولنا تم إحراز تقدم مطرد في السنوات الأخيرة. الآن ، استخدم الباحثون تقنية إنشاء الفيديو بالذكاء الاصطناعي لمنحنا نافذة على أعيننا.

الدافع الرئيسي وراء محاولات تفسير إشارات الدماغ هو الأمل في أن نتمكن في يوم من الأيام من تقديم نوافذ اتصال جديدة لأولئك الذين يعانون من الغيبوبة أو الذين يعانون من أشكال مختلفة من الشلل. ولكن هناك أيضًا آمال في أن التكنولوجيا يمكن أن تخلق واجهات أكثر سهولة بين البشر والآلات والتي يمكن أن يكون لها أيضًا تطبيقات للأشخاص الأصحاء.

حتى الآن ، ركزت معظم الأبحاث على الجهود المبذولة لإعادة إنشاء المونولوج الداخليs من المرضى باستخدام أنظمة الذكاء الاصطناعي لاختيار ما هي الكلمات التي يفكرون بها. جاءت النتائج الواعدة أيضًا من غرسات الدماغ الغازية التي من غير المرجح أن تكون أسلوبًا عمليًا لمعظم الناس.

على الرغم من ذلك ، أظهر باحثون من جامعة سنغافورة الوطنية وجامعة هونغ كونغ الصينية أنه يمكنهم الجمع بين عمليات مسح الدماغ غير الغازية وتقنية توليد الصور بالذكاء الاصطناعي لإنشاء مقتطفات قصيرة من الفيديو تشبه بشكل غريب المقاطع التي كان الأشخاص يشاهدونها. عندما تم جمع بيانات أدمغتهم.

العمل هو امتداد لبحث نفس المؤلفين نشرت أواخر العام الماضي، حيث أظهروا أنه يمكنهم إنشاء صور ثابتة تتطابق تقريبًا مع الصور التي تم عرضها. تم تحقيق ذلك من خلال التدريب الأول لنموذج واحد على كميات كبيرة من البيانات التي تم جمعها باستخدام أجهزة مسح الدماغ بالرنين المغناطيسي الوظيفي. تم دمج هذا النموذج بعد ذلك مع توليد الصور مفتوح المصدر AI Stable Diffusion لإنشاء الصور.

في ورقة جديدة نشرت على خادم ما قبل الطباعة arXiv, اتبع المؤلفون نهجًا مشابهًا ، لكنهم قاموا بتعديله بحيث يمكن للنظام تفسير تدفقات بيانات الدماغ وتحويلها إلى مقاطع فيديو بدلاً من لقطات ثابتة. أولاً ، قاموا بتدريب نموذج واحد على كميات كبيرة من الرنين المغناطيسي الوظيفي حتى يتمكن من معرفة السمات العامة لمسح الدماغ هذا. تم زيادة ذلك بعد ذلك حتى يتمكن من معالجة سلسلة من فحوصات الرنين المغناطيسي الوظيفي بدلاً من الفحوصات الفردية ، ثم تم تدريبه مرة أخرى على مجموعات من فحوصات التصوير بالرنين المغناطيسي الوظيفي ، ومقاطع الفيديو التي أثارت نشاط الدماغ هذا ، وأوصاف النص.

بشكل منفصل ، قام الباحثون بتكييف نموذج Stable Diffusion المدربين مسبقًا لإنتاج فيديو بدلاً من الصور الثابتة. ثم تم تدريبه مرة أخرى على نفس مقاطع الفيديو والأوصاف النصية التي تم تدريب النموذج الأول عليها. أخيرًا ، تم دمج النموذجين وضبطهما معًا في فحوصات التصوير بالرنين المغناطيسي الوظيفي ومقاطع الفيديو المرتبطة بهما.

كان النظام الناتج قادرًا على إجراء فحوصات جديدة للرنين المغناطيسي الوظيفي لم يسبق له مثيل من قبل وإنشاء مقاطع فيديو تشبه إلى حد كبير المقاطع البشرية.d كان يشاهد في ذلك الوقت. على الرغم من أن إنتاج الذكاء الاصطناعي بعيدًا عن التطابق التام ، إلا أنه كان قريبًا جدًا من الفيديو الأصلي ، حيث أعاد إنشاء مشاهد جماعية أو قطعان من الخيول بدقة وغالبًا ما تتطابق مع لوحة الألوان.

لتقييم نظامهم ، استخدم الباحثون مُصنِّف فيديو مصممًا لتقييم مدى فهم النموذج لدلالات المشهد - على سبيل المثال ، ما إذا كان قد أدرك أن الفيديو كان لسمكة تسبح في حوض مائي أو عائلة تسير في أحد الممرات - حتى لو كانت الصور مختلفة قليلاً. سجل نموذجهم 85 بالمائة ، وهو تحسن بنسبة 45 بالمائة عن أحدث طراز.

في حين أن مقاطع الفيديو التي يولدها الذكاء الاصطناعي لا تزال غير دقيقة ، يقول المؤلفون إن هذا النوع من البحث يمكن أن يكون له في النهاية تطبيقات في علم الأعصاب الأساسي والمستقبل أيضًا واجهات الدماغ والآلة. ومع ذلك ، فهم يقرون أيضًا بالجوانب السلبية المحتملة للتكنولوجيا. وكتبوا: "هناك حاجة إلى اللوائح والجهود الحكومية من المجتمعات البحثية لضمان خصوصية البيانات البيولوجية للفرد وتجنب أي استخدام ضار لهذه التكنولوجيا".

من المحتمل أن يكون هذا إشارة إلى المخاوف من أن الجمع بين تقنية مسح الدماغ بالذكاء الاصطناعي يمكن أن يجعل من الممكن للناس تسجيل أفكار الآخرين بشكل تدخلي دون موافقتهم. Aكانت nxatives أيضا تم التعبير عنها في وقت سابق من هذا العام عندما استخدم الباحثون نهجًا مشابهًا لإنشاء نموذج تقريبي نسخة من الصوت داخل رؤوس الناس، على الرغم من أن الخبراء أشاروا إلى أن هذا سيكون غير عملي إن لم يكن مستحيلاً في المستقبل المنظور.

ولكن سواء كنت ترى ذلك على أنه انتهاك زاحف لخصوصيتك أو طريقة جديدة ومثيرة للتفاعل مع التكنولوجيا ، يبدو أن قراء العقل الآلي يقتربون من الواقع.

الصورة الائتمان: كلوديا ديوالد تبدأ من Pixabay

الطابع الزمني:

اكثر من التفرد المحور