يدفع الناشرون Common Crawl للتوقف عن جمع المحتوى لتدريب الذكاء الاصطناعي

أرسل المحتوى الرقمي التالي (DCN) إلى مؤسسة Common Crawl خطابًا بالتوقف والكف يطالبها بالتوقف عن تجريف محتوى الناشر المحمي وتوزيعه.

كما طلبت المجموعة التجارية الأمريكية، التي تمثل كبار الناشرين الرقميين (مثل AP وNew York Times وNBC Universal وBloomberg وNPR وFox)، من Common Crawl إزالة محتوى أعضاء DCN من مجموعات البيانات الخاصة بها، بما في ذلك المقالات الإخبارية المحظورة والمشتركة فقط.

يتساءل الناشرون عن إلغاء الاشتراك. أثار محامو DCN مخاوف بشأن ما إذا كان Common Crawl يحترم طلبات إلغاء الاشتراك للناشرين ويزيل المحتوى الأقدم عندما يُطلب منهم ذلك.

وقالت الرسالة إن شركة Common Crawl أبلغت الناشرين في بعض الحالات بأنها تمتثل لها، لكنها قالت لاحقًا إن التكاليف الفنية والتأخير حالت دون الإزالة الكاملة. وقال محامو DCN إنهم يراجعون ما إذا كانت هذه التصريحات غير دقيقة أو مضللة.

ينشر Common Crawl سجلاً بالمواقع التي اختارت إلغاء الاشتراك. تتضمن القائمة العديد من ناشري الأخبار الكبار.

تدعي DCN الانتهاك. جادلت الرسالة بأن قانون حقوق الطبع والنشر ليس نظام إلغاء الاشتراك. قالت DCN إن Common Crawl “ينتهك بشكل صارخ” حقوق الطبع والنشر للناشرين من خلال إنشاء وتوزيع مجموعات بيانات تحتوي على محتوى محمي دون إذن أو تعويض.

وقالت المجموعة أيضًا إن Common Crawl جعل هذا المحتوى متاحًا للشركات التي تعمل على تطوير أدوات الذكاء الاصطناعي ونماذج اللغات الكبيرة.

قال جيسون كينت، الرئيس التنفيذي لشركة DCN، إن الإشعار القانوني يتحدى فكرة إمكانية جمع المحتوى عبر الإنترنت وتخزينه وإعادة استخدامه لمجرد أنه يمكن الوصول إليه.

الزحف المشترك يدفع للخلف. نفى المدير التنفيذي ريتش سكرينتا أن يكون CCBot يتجاوز نظام حظر الاشتراك غير المدفوع لمسح مواقع الويب. كما نفى أيضًا تضليل الناشرين بعد أن ذكرت مجلة The Atlantic في نوفمبر أن بعض المحتوى من الناشرين الذين طلبوا الإزالة لا يزال متاحًا.

قال سكرينتا: “عندما يطلب منا ناشر إزالة المواد التي تم الزحف إليها مسبقًا، فإننا نستجيب على الفور ونبدأ عملية إزالة تعكس التصميم الفني لمجموعة البيانات الخاصة بنا”.

لماذا نهتم. يمكن أن تحدد هذه المعركة مقدار محتوى الناشر الذي يمكن لمحركات بحث الذكاء الاصطناعي استخدامه دون إذن. إذا فرضت المحاكم أو التسويات متطلبات موافقة أكثر صرامة، فقد تعتمد استجابات الذكاء الاصطناعي بشكل أكبر على المصادر المرخصة وبدرجة أقل على الويب المفتوح.

حصص تدريب الذكاء الاصطناعي. منذ عام 2008، قامت Common Crawl بجمع مليارات صفحات الويب لإنشاء أرشيف عام مجاني. وقد تم استخدام مجموعات البيانات الخاصة به على نطاق واسع لتدريب نماذج الذكاء الاصطناعي. أفادت صحيفة Press Gazette أن دعوى حقوق الطبع والنشر التي رفعتها صحيفة نيويورك تايمز لعام 2023 ضد OpenAI أشارت إلى أن Common Crawl يشكل 60٪ من بيانات تدريب GPT-3.

ذكرت دراسة لمؤسسة Mozilla لعام 2024 أنه من المحتمل أن الذكاء الاصطناعي التوليدي، في شكله الحالي، لم يكن ممكنًا بدون الزحف المشترك.

قال سكرينتا هذا الأسبوع إن Common Crawl تعمل على معايير مفتوحة لتفضيلات الزحف الخاصة بالذكاء الاصطناعي. يطالب خطاب DCN باتخاذ موقف أكثر تشددًا: التوقف عن حذف محتوى الناشر المحمي وإزالة محتوى الأعضاء الموجود بالفعل في مجموعات البيانات.

آخر الأخبار

شركة محاماة PPC: كيفية تحسين الحالات الموقعة بدلاً من العملاء المتوقعين

تقوم Google بتوسيع نطاق استكشاف عروض الأسعار الذكية، وإضافة وضع الترويج

ما تكشفه بيانات بحث الذكاء الاصطناعي الجديدة عن الرؤية والثقة

الاسترجاع مقابل الاستشهاد: كيف يغير بحث الذكاء الاصطناعي استراتيجية المحتوى

كيف يمكن لعلامات السفر التجارية الحصول على توصيات الذكاء الاصطناعي

تنسيقات العناوين واكتشاف Google: ما تكشفه 3.4 مليون مقالة

كيف علم سيمران هاريتشاند أهمية الأساسيات من خلال إنفاق أقل من 30 ألف يورو

تقول Google إن ملفات LLMS.txt لن تضر أو تساعد في تصنيفات البحث الخاصة بك

كيف تختلف أنماط مطالبات الذكاء الاصطناعي حسب الصناعة وشكل رؤية البحث

لماذا لم يعد الإسناد والتأثير هو نفس الشيء في PPC

جوجل تؤجل ترحيل الإعلانات الديناميكية على شبكة البحث إلى AI Max

كيفية بناء عقل ثانٍ مدعوم من كلود كود لعمل الوكالة