في عالم اليوم، نحن محاطون بمصادر مختلفة للمعلومات المكتوبة، وهي المعلومات التي نفترض عمومًا أنها كتبها بشر آخرون. سواء كان ذلك في شكل كتب أو مدونات أو مقالات إخبارية أو منشورات منتديات أو تعليقات على صفحة منتج أو مناقشات على وسائل التواصل الاجتماعي وفي أقسام التعليقات، فإن الافتراض هو أن النص الذي نقرأه قد كتبه شخص آخر. ومع ذلك، على مر السنين، أصبح هذا الافتراض خاطئًا أكثر من أي وقت مضى، ويرجع ذلك مؤخرًا إلى نماذج اللغة الكبيرة (LLMs) مثل GPT-2 وGPT-3 التي يمكنها إنتاج فقرات معقولة حول أي موضوع عند الطلب.
وهذا يثير سؤالاً حول ما إذا كنا على وشك الوصول إلى نقطة حيث لم يعد بإمكاننا التأكد بشكل معقول من أن تعليقًا عبر الإنترنت أو مقالًا إخباريًا أو حتى كتبًا ونصوص أفلام بأكملها لم يتم إنتاجها بواسطة خوارزمية، أو ربما حتى حيث يتبين أن الدردشة عبر الإنترنت مع مباراة مثيرة جديدة هي مجرد ما تحصل عليه من خلال مجموعة بسيطة من التعليمات البرمجية التي تم تدريبها وتعديلها لتحقيق أقصى قدر من التفاعل مع العملاء. (ملاحظة المحرر: لا، نحن لا نلعب هذه اللعبة هنا.)
نظرًا لأن هذا المحتوى والتفاعلات التي تم إنشاؤها بواسطة الآلة بدأت تلعب دورًا أكبر من أي وقت مضى، فإنها تثير سؤالًا حول كيفية اكتشاف هذا المحتوى الذي تم إنشاؤه، وكذلك ما إذا كان من المهم أن يتم إنشاء المحتوى بواسطة خوارزمية بدلاً من إنسان .
الملل مقابل الخبث
في جورج أورويل الف وتسعمائة واربعة وثمانون، يصف ونستون سميث قسمًا داخل وزارة الحقيقة يسمى قسم الخيال، حيث تنتج الآلات باستمرار روايات جديدة تتمحور حول موضوعات معينة. وفي الوقت نفسه، في قسم الموسيقى، يتم إنشاء موسيقى جديدة بواسطة نظام آخر يسمى النشيد.
ومع ذلك، على الرغم من كون هذا العالم الخيالي بائسًا، إلا أن هذا المحتوى الذي تم إنشاؤه بواسطة الآلة غير ضار في الأساس، كما لاحظ ونستون لاحقًا في الكتاب، عندما لاحظ امرأة في المنطقة العامة بالمدينة تغني أحدث الأنشودة، مما يضيف كثافة عاطفية خاصة بها إلى أغنية. أغنية حب أطلقتها آلة عديمة الشعور وغير مفكّرة. يقودنا هذا إلى الاستخدام الأكثر شيوعًا للمحتوى الذي يتم إنشاؤه بواسطة الآلة، والذي قد يجادل الكثيرون بأنه مجرد شكل من أشكال الأتمتة.
والمصطلح الشامل هنا هو "الصحافة الآلية'، ولديه كانت قيد الاستخدام مع وسائل إعلامية محترمة مثل رويترز وأسوشيتد برس وغيرها لسنوات حتى الآن. حالات الاستخدام هنا بسيطة ومباشرة: هذه هي الأنظمة التي تم تكوينها لتلقي معلومات حول أداء الأسهم، أو التقارير ربع السنوية للشركة، أو نتائج المباريات الرياضية أو نتائج الانتخابات المحلية وإصدار مقال يتبع نمطًا محددًا مسبقًا. الميزة الواضحة هي أن الغرف المليئة بالصحفيين الذين ينسخون النتائج ومقاييس الأداء في قوالب المقالات يمكن استبدالها بخوارزمية حاسوبية.
في هذه الحالات، يتم استبدال العمل الذي يتضمن المعادل الصحفي أو الفني لتقليب البرغر في مطعم للوجبات السريعة بخوارزمية لا تشعر بالملل أو التشتت أبدًا، بينما يمكن للبشر القيام بأعمال أكثر تحديًا فكريًا. قد يجادل قليلون بأن هناك مشكلة في هذا النوع من الأتمتة، لأنها تفعل بالضبط ما وعدنا به.
حيث تصبح الأمور مشبوهة عندما يتم استخدامها لأغراض شائنة، مثل جذب حركة البحث المقالات المولدة آليًا التي تحاول بيع شيء للقارئ. على الرغم من أن هذا أدى مؤخرًا إلى غضب كبير في حالة CNET، حقيقة الأمر هي أن هذا نهج مربح بشكل لا يصدق، لذلك قد نرى المزيد منه في المستقبل. بعد كل شيء، يمكن لنموذج اللغة الكبير إنشاء مجموعة كاملة من المقالات في الوقت الذي يستغرقه الكاتب البشري لكتابة بضع فقرات من النص.
أما المنطقة الرمادية فهي فيما يتعلق بمساعدة الكاتب البشري، والتي أصبحت قضية في عالم النشر العلمي، كما مغطاة مؤخرا by The Guardian ، الذين قاموا بأنفسهم ببعض الحيلة في سبتمبر من عام 2020 عندما قاموا نشرت مقالا التي تم إنشاؤها بواسطة GPT-3 LLM. كان التحذير هو أنه لم يكن الناتج المباشر من LLM، ولكن ما أحيره محرر بشري من مخرجات متعددة تم إنشاؤها بواسطة GPT-3. وهذا يدل إلى حد ما على كيفية استخدام LLMs بشكل عام، ويلمح إلى بعض أكبر نقاط الضعف فيها.
لا توجد إجابات خاطئة
في جوهرها مثل LLM GPT-3 هي قاعدة بيانات مترابطة بشكل كبير من القيم التي تم إنشاؤها من النصوص المدخلة التي تشكل مجموعة بيانات التدريب. في حالة GPT-3، يؤدي هذا إلى إنشاء قاعدة بيانات (نموذج) يبلغ حجمها حوالي 800 جيجابايت. من أجل البحث في قاعدة البيانات هذه، يتم توفير سلسلة استعلام - بشكل عام على شكل سؤال أو عبارة استهلالية - والتي تشكل بعد المعالجة المدخلات إلى خوارزمية ملائمة المنحنى. يحدد هذا بشكل أساسي احتمالية ارتباط استعلام الإدخال بقسم من النموذج.
بمجرد العثور على تطابق محتمل، يمكن إنشاء المخرجات بناءً على الاتصال التالي الأكثر احتمالاً داخل قاعدة بيانات النموذج. يتيح ذلك لـ LLM العثور على معلومات محددة ضمن مجموعة بيانات كبيرة وإنشاء نصوص طويلة لا نهائية من الناحية النظرية. ومع ذلك، ما لا يمكنه فعله هو تحديد ما إذا كان استعلام الإدخال منطقيًا، أو ما إذا كانت المخرجات التي ينشئها منطقية. كل ما تستطيع الخوارزمية تحديده هو ما إذا كانت تتبع المسار الأكثر احتمالاً، مع احتمال وجود بعض الاختلافات المستحثة لخلط المخرجات.
الشيء الذي لا يزال يعتبر مشكلة في النصوص التي تم إنشاؤها بواسطة LLM هو التكرار، على الرغم من أنه يمكن حل هذه المشكلة من خلال بعض التعديلات التي تمنح المخرجات "ذاكرة" لتقليل عدد المرات التي يتم فيها استخدام كلمة معينة. ما يصعب حله هو الثقة المطلقة في مخرجات LLM، حيث لا توجد طريقة للتأكد مما إذا كانت تنتج مجرد هراء وستستمر في الثرثرة بكل سرور.
ومع ذلك، على الرغم من ذلك، عندما يتم إخضاع الأشخاص للنصوص الناتجة عن GPT-3 وGPT-2 كما هو الحال في 2021 الدراسة بواسطة إليزابيث كلارك وآخرين، فإن احتمالية التعرف على النصوص التي تم إنشاؤها بواسطة حاملي الماجستير في القانون - حتى بعد بعض التدريب - لا تتجاوز 55%، مما يجعل الأمر أقرب إلى الصدفة البحتة تقريبًا. لماذا يكون البشر سيئين للغاية في التعرف على هذه النصوص التي تم إنشاؤها بواسطة LLM، وربما يمكن لأجهزة الكمبيوتر مساعدتنا هنا؟
الإحصائيات مقابل الحدس
عندما يُسأل إنسان عما إذا كان نص معين قد تم إنشاؤه بواسطة إنسان أو تم إنشاؤه بواسطة آلة، فمن المرجح أن يخمنوا بشكل أساسي بناءً على تجاربهم الخاصة، و"الشعور الغريزي" وربما مجموعة من القرائن. في ورقة 2019 بواسطة سيباستيان جيرمان وآخرون، تم اقتراح نهج إحصائي لاكتشاف النص الذي تم إنشاؤه آليًا، بالإضافة إلى تحديد مجموعة من الحالات الشائنة للنص الذي تم إنشاؤه تلقائيًا. وتشمل هذه التعليقات المزيفة التي تتعارض مع الحياد الصافي للولايات المتحدة والمراجعات المضللة.
النهج الإحصائي الذي قام بتفصيله جيرمان وآخرون. تسمى غرفة اختبار نموذج اللغة العملاقة (GLTR، مصدر جيثب) يتضمن تحليل نص معين من أجل التنبؤ به. هذه هي الخاصية التي غالبًا ما يصفها القراء بأنها "سطحية" للنص الذي يتم إنشاؤه آليًا، حيث أنها تستمر في التشويش على الفقرات دون أن تقول الكثير حقًا. باستخدام أداة مثل GLTR، سيضيء هذا النص في الغالب باللون الأخضر في التمثيل المرئي، لأنه يستخدم مفردات محدودة ويمكن التنبؤ بها.
In ورقة مقدمة من دافني إيبوليتو وآخرون. (PDF) في اجتماع عام 2020 لجمعية اللغويات الحاسوبية، تمت تغطية الأساليب المختلفة لاكتشاف النص المولد آليًا، إلى جانب فعالية هذه الأساليب المستخدمة بشكل منفصل مقابل الطريقة المجمعة. تم تضمين نهج التحليل top-k الذي يستخدمه GLTR في هذه الطرق، مع تناول الأساليب البديلة لأخذ عينات النواة (top-p) وغيرها أيضًا.
في النهاية، سجل المشاركون في هذه الدراسة متوسطًا قدره 74% عند تصنيف نصوص GPT-2، وكان نظام التمييز الآلي يسجل نتائج أفضل بشكل عام. وتجدر الإشارة إلى الدراسة التي أجراها آري هولتزمان وآخرون. هذا ما تمت الإشارة إليه في الخاتمة، حيث لوحظ أن النص المكتوب بواسطة الإنسان عمومًا له إيقاع ينخفض داخل وخارج منطقة الاحتمالية المنخفضة. وهذا لا يجعل ما يجعل النص مثيرًا للاهتمام للقراءة فحسب، بل يوفر أيضًا دليلاً لما يجعل النص يبدو طبيعيًا للقارئ البشري.
مع شهادات LLM الحديثة مثل GPT-3، وهو نهج مثل أخذ عينات النواة الذي اقترحه Holtzman et al. هو ما يوفر الإيقاع الطبيعي الذي يمكن توقعه من نص يكتبه الإنسان. بدلاً من الاختيار من قائمة الخيارات الأفضل، بدلاً من ذلك يختار المرء من مجموعة من المرشحين تم تغيير حجمها ديناميكيًا: الكتلة الاحتمالية. توفر قائمة الخيارات الناتجة، top-p، مخرجات أكثر ثراءً بكثير من طريقة top-k التي تم استخدامها مع GPT-2 وkin.
ما يعنيه هذا أيضًا هو أنه عند التحليل التلقائي للنص، يجب مراعاة طرق متعددة. بالنسبة للتحليل الذي يجريه قارئ بشري، فإن التمييز بين نص top-k (GPT-2) وtop-p (GPT-3) سيكون صارخًا، مع احتمال تحديد النوع الأخير على أنه مكتوب بواسطة إنسان.
غير مؤكد مرات
وبالتالي يبدو أن الإجابة على سؤال ما إذا كان نص معين قد تم إنشاؤه بواسطة إنسان أم لا هو "ربما" نهائي. على الرغم من أن التحليل الإحصائي يمكن أن يوفر بعض التلميحات حول احتمالية إنشاء نص بواسطة ماجستير في القانون، إلا أن الحكم النهائي يجب أن يكون في نهاية المطاف مع الإنسان، الذي لا يمكنه فقط تحديد ما إذا كان النص يجتاز الاختبار دلاليًا وسياقيًا، ولكن أيضًا التحقق من ذلك. المصدر المفترض للنص لكونه حقيقيا.
بطبيعة الحال، هناك الكثير من المواقف التي قد لا يهم فيها من كتب النص، طالما أن المعلومات الواردة فيه صحيحة بالفعل. ومع ذلك، عندما تكون هناك نية شريرة، أو نية الخداع، فمن الضروري ممارسة العناية الواجبة. حتى مع وجود خوارزميات الكشف التلقائي، ومع وجود مستخدم مدرب وحذر، يظل العبء على عاتق القارئ للإشارة إلى المعلومات والتأكد مما إذا كان البيان الذي أدلى به حساب عشوائي على وسائل التواصل الاجتماعي قد يكون حقيقيا.
(ملحوظة المحرر: هذا المنشور حول محاولة OpenAI لاكتشاف النثر الخاص به خرج بين هذه المقالة التي يتم كتابتها ونشرها. نتائجهم ليست رائعة، وكما هو الحال مع كل شيء بدءًا من الذكاء الاصطناعي "المفتوح"، لم يتم الكشف عن أساليبهم علنًا. ومع ذلك، يمكنك تجربة المصنف.)
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://hackaday.com/2023/02/01/detecting-machine-generated-content-an-easier-task-for-machine-or-human/
- 1
- 2019
- 2020
- a
- من نحن
- مطلق
- حسابي
- إضافة
- مميزات
- بعد
- خوارزمية
- خوارزميات
- الكل
- يسمح
- بالرغم ان
- تحليل
- تحليل
- و
- آخر
- إجابة
- نهج
- اقتراب
- المنطقة
- تجادل
- حول
- البند
- مقالات
- فني
- جمعية
- افتراض
- الآلي
- أوتوماتيك
- أتمتة
- على أساس
- في الأساس
- تتحمل
- أصبح
- أن تصبح
- يجري
- أفضل
- ما بين
- أكبر
- أكبر
- قطعة
- المدونة
- كتاب
- كُتُب
- بالملل
- يجلب
- إيقاع
- تسمى
- المرشحين
- لا تستطيع
- حقيبة
- الحالات
- حذر
- معين
- تحدي
- فرصة
- مميز
- التحقق
- المدينة
- CNET
- الكود
- مجموعة شتاء XNUMX
- الجمع بين
- التعليق
- تعليقات
- مشترك
- حول الشركة
- الكمبيوتر
- أجهزة الكمبيوتر
- اهتمامات
- اختتام
- الثقة
- صلة
- نظرت
- باستمرار
- محتوى
- تقليد
- جوهر
- الدورة
- مغطى
- خلق
- خلق
- ائتمان
- منحنى
- العملاء
- قطع
- البيانات
- مجموعة البيانات
- قاعدة البيانات
- نهائي
- القسم
- وصف
- على الرغم من
- مفصلة
- حدد
- يحدد
- الاجتهاد
- مناقشات
- لا
- إلى أسفل
- بائس
- أسهل
- رئيس التحرير
- فعالية
- انتخابات
- يشمل
- اشتباك
- كامل
- معادل
- أساسيا
- الأثير (ETH)
- حتى
- EVER
- كل شىء
- بالضبط
- تجاوز
- متوقع
- خبرة
- زائف
- الأزياء
- FAST
- ردود الفعل
- قليل
- خيال
- خيالي
- افلام
- نهائي
- تركيبات
- متابعيك
- متابعات
- طعام
- الشرق الأوسط
- النموذج المرفق
- أشكال
- المنتدى
- وجدت
- تبدأ من
- بالإضافة إلى
- مستقبل
- لعبة
- على العموم
- توليد
- ولدت
- يولد
- جورج
- دولار فقط واحصل على خصم XNUMX% على جميع
- الحصول على
- عملاق
- منح
- معطى
- عظيم
- أخضر
- وجود
- بشكل كبير
- مساعدة
- هنا
- تلميحات
- كيفية
- لكن
- HTTPS
- الانسان
- البشر
- محدد
- تحديد
- in
- تتضمن
- شامل
- لا يصدق
- معلومات
- إدخال
- بدلًا من ذلك
- نية
- التفاعلات
- مترابطة
- وكتابة مواضيع مثيرة للاهتمام
- عزل
- قضية
- IT
- مشترك
- الصحفيين
- احتفظ
- قريب
- نوع
- لغة
- كبير
- آخر
- قيادة
- ليد
- ضوء
- على الأرجح
- محدود
- علم اللغة
- قائمة
- محلي
- طويل
- يعد
- حب
- منخفض
- آلة
- الآلات
- صنع
- يصنع
- القيام ب
- كثير
- كتلة
- مباراة
- أمر
- المسائل
- ماكس العرض
- أقصى
- يعني
- في غضون
- الوسائط
- الاجتماع
- مجرد
- طرق
- المقاييس
- ربما
- وزارة
- نموذج
- عارضات ازياء
- تقدم
- الأكثر من ذلك
- أكثر
- متعدد
- موسيقى
- طبيعي
- صاف
- صافي الحياد
- جديد
- أخبار
- التالي
- وأشار
- عدد
- يلاحظ
- واضح
- ONE
- online
- معارضة
- مزيد من الخيارات
- طلب
- أخرى
- أخرى
- منافذ
- الخاصة
- ورق
- يمر
- نمط
- أداء
- ربما
- شخص
- المكان
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- معقول
- بلايستشن
- لعب
- وفرة
- البوينت
- تجمع
- منشور
- المنشورات
- ممارسة
- قابل للتنبؤ
- قدم
- الاحتمالات
- المشكلة
- معالجة
- المنتج
- مربح
- وعد
- المقترح
- تزود
- المقدمة
- ويوفر
- علانية
- نشرت
- نشر
- أغراض
- وضع
- سؤال
- يثير
- عشوائية
- نطاق
- الوصول
- عرض
- قارئ
- القراء
- نادي القراءة
- مؤخرا
- ذات صلة
- بقايا
- استبدال
- التقارير
- التمثيل
- طلب
- حل
- محترم
- مما أدى
- النتائج
- رويترز
- التعليقات
- النوع
- غرفة
- غرفة
- تقريبا
- النقاط
- مخطوطات
- بحث
- القسم
- أقسام
- بيع
- إحساس
- سبتمبر
- طقم
- الاشارات
- حالات
- المقاس
- So
- العدالة
- وسائل التواصل الاجتماعي
- بعض
- شيء
- مصدر
- مصادر
- محدد
- رياضة
- كومة
- قاس
- ملخص الحساب
- إحصائي
- لا يزال
- مخزون
- مستقيم
- صريح
- دراسة
- هذه
- محاط
- نظام
- أنظمة
- أخذ
- يأخذ
- مهمة
- النماذج
- تجربه بالعربي
- •
- المستقبل
- المعلومات
- العالم
- من مشاركة
- أنفسهم
- الأشياء
- الوقت
- مرات
- إلى
- اليوم
- سويا
- أداة
- موضوع
- حركة المرور
- متدرب
- قادة الإيمان
- في النهاية
- us
- تستخدم
- مستخدم
- القيم
- مختلف
- مقابل
- ابحث عن
- ما هي تفاصيل
- سواء
- التي
- في حين
- من الذى
- ويكيبيديا
- سوف
- في غضون
- بدون
- امرأة
- كلمة
- للعمل
- العالم
- سوف
- كاتب
- مكتوب
- خاطئ
- سنوات
- زفيرنت