جاري التحميل الآن

آخر الأخبار

يدفع الناشرون Common Crawl للتوقف عن جمع المحتوى لتدريب الذكاء الاصطناعي

أرسل المحتوى الرقمي التالي (DCN) إلى مؤسسة Common Crawl خطابًا بالتوقف والكف يطالبها بالتوقف عن تجريف محتوى الناشر المحمي وتوزيعه.

كما طلبت المجموعة التجارية الأمريكية، التي تمثل كبار الناشرين الرقميين (مثل AP وNew York Times وNBC Universal وBloomberg وNPR وFox)، من Common Crawl إزالة محتوى أعضاء DCN من مجموعات البيانات الخاصة بها، بما في ذلك المقالات الإخبارية المحظورة والمشتركة فقط.

يتساءل الناشرون عن إلغاء الاشتراك. أثار محامو DCN مخاوف بشأن ما إذا كان Common Crawl يحترم طلبات إلغاء الاشتراك للناشرين ويزيل المحتوى الأقدم عندما يُطلب منهم ذلك.

وقالت الرسالة إن شركة Common Crawl أبلغت الناشرين في بعض الحالات بأنها تمتثل لها، لكنها قالت لاحقًا إن التكاليف الفنية والتأخير حالت دون الإزالة الكاملة. وقال محامو DCN إنهم يراجعون ما إذا كانت هذه التصريحات غير دقيقة أو مضللة.

ينشر Common Crawl سجلاً بالمواقع التي اختارت إلغاء الاشتراك. تتضمن القائمة العديد من ناشري الأخبار الكبار.

تدعي DCN الانتهاك. جادلت الرسالة بأن قانون حقوق الطبع والنشر ليس نظام إلغاء الاشتراك. قالت DCN إن Common Crawl “ينتهك بشكل صارخ” حقوق الطبع والنشر للناشرين من خلال إنشاء وتوزيع مجموعات بيانات تحتوي على محتوى محمي دون إذن أو تعويض.

وقالت المجموعة أيضًا إن Common Crawl جعل هذا المحتوى متاحًا للشركات التي تعمل على تطوير أدوات الذكاء الاصطناعي ونماذج اللغات الكبيرة.

قال جيسون كينت، الرئيس التنفيذي لشركة DCN، إن الإشعار القانوني يتحدى فكرة إمكانية جمع المحتوى عبر الإنترنت وتخزينه وإعادة استخدامه لمجرد أنه يمكن الوصول إليه.

الزحف المشترك يدفع للخلف. نفى المدير التنفيذي ريتش سكرينتا أن يكون CCBot يتجاوز نظام حظر الاشتراك غير المدفوع لمسح مواقع الويب. كما نفى أيضًا تضليل الناشرين بعد أن ذكرت مجلة The Atlantic في نوفمبر أن بعض المحتوى من الناشرين الذين طلبوا الإزالة لا يزال متاحًا.

قال سكرينتا: “عندما يطلب منا ناشر إزالة المواد التي تم الزحف إليها مسبقًا، فإننا نستجيب على الفور ونبدأ عملية إزالة تعكس التصميم الفني لمجموعة البيانات الخاصة بنا”.

لماذا نهتم. يمكن أن تحدد هذه المعركة مقدار محتوى الناشر الذي يمكن لمحركات بحث الذكاء الاصطناعي استخدامه دون إذن. إذا فرضت المحاكم أو التسويات متطلبات موافقة أكثر صرامة، فقد تعتمد استجابات الذكاء الاصطناعي بشكل أكبر على المصادر المرخصة وبدرجة أقل على الويب المفتوح.

حصص تدريب الذكاء الاصطناعي. منذ عام 2008، قامت Common Crawl بجمع مليارات صفحات الويب لإنشاء أرشيف عام مجاني. وقد تم استخدام مجموعات البيانات الخاصة به على نطاق واسع لتدريب نماذج الذكاء الاصطناعي. أفادت صحيفة Press Gazette أن دعوى حقوق الطبع والنشر التي رفعتها صحيفة نيويورك تايمز لعام 2023 ضد OpenAI أشارت إلى أن Common Crawl يشكل 60٪ من بيانات تدريب GPT-3.

ذكرت دراسة لمؤسسة Mozilla لعام 2024 أنه من المحتمل أن الذكاء الاصطناعي التوليدي، في شكله الحالي، لم يكن ممكنًا بدون الزحف المشترك.

قال سكرينتا هذا الأسبوع إن Common Crawl تعمل على معايير مفتوحة لتفضيلات الزحف الخاصة بالذكاء الاصطناعي. يطالب خطاب DCN باتخاذ موقف أكثر تشددًا: التوقف عن حذف محتوى الناشر المحمي وإزالة محتوى الأعضاء الموجود بالفعل في مجموعات البيانات.

مهندسة برمجيات ومتخصصة في التسويق الرقمي وتحسين محركات البحث (SEO). أجمع بين الخبرة التقنية في بناء المواقع والاستراتيجيات التسويقية المبتكرةمهندسة برمجيات ومتخصصة في التسويق الرقمي وتحسين محركات البحث (SEO). أجمع بين الخبرة التقنية في بناء المواقع والاستراتيجيات التسويقية المبتكرة لمساعدة الشركات على بناء حضور رقمي قوي وتصدر نتائج البحث. مؤسسة HadDesign لتطوير الحلول الرقمية المتكاملة. لمساعدة الشركات على بناء حضور رقمي قوي وتصدر نتائج البحث. مؤسسة HadDesign لتطوير الحلول الرقمية المتكاملة.

إرسال التعليق