مورد دوم مربوط به مرحله نمایه سازی/پردازش است. به این ترتیب، robots.txt واقعاً به این بحث مربوط نیست، بلکه آ،ین راه حل است، اگر هیچ چیز دیگری کار نمی کند و واقعاً نباید نقطه شروع این بحث خاص باشد.
برای ،ندههای بزرگتر مانند Googlebot و Bingbot، نمیتوان بین دادههایی که برای صفحات نتایج موتور جستجو استفاده میشوند تمایزی قائل شد (بهطور سنتی، جایی که «توافقنامه» بین ناشر و موتور جستجو به شکل «نقل به منبع» وجود دارد. منبع) و محصولات مولد هوش مصنوعی.
توجه: نام “حق استفاده” برای متا تگ یک پیشنهاد است و قابل تغییر است.
راه حل بی عیب و نقص
با این حال، به نظر من، این ابزار اشتباهی است که باید به آن نگاه کرد.
علاوه بر این، من توصیه می کنم که این متا تگ در هنگام استفاده نیز پشتیب، شود هدرهای HTTP، مانند noindex در پشتیب، می شود X-Robots-Tag، برای کمک به ،نده های LLM در مدیریت بهتر منابع ،یدن خود (آنها فقط باید سربرگ های HTTP را بررسی کنند تا حقوق استفاده را تأیید کنند).
و اگرچه تگ های حق چاپ موجود است که می توان از آنها استفاده کرد – به ویژه از هسته دوبلین، استاندارد حقوق (پیشنهاد رها شده)، کپی رایت-متا (به جای مجوز روی نام مالک تمرکز می کند) و تلاش های دیگر – اجرای فعلی این موارد در برخی از وب سایت ها ممکن است با آنچه ما در اینجا انجام دهیم مغایرت داشته باشد.
این بدان م،است که یک ناشر بزرگ ممکن است در صورت نیاز به مسدود ، تعداد زیادی ،نده LLM و/یا ال،ای URL اصلاح شده علاوه بر ربات های دیگر، با فایل robots.txt خود با مشکل مواجه شود.
رویکرد “همه یا هیچ” غیرقابل قبول است
مسدود ، Googlebot یا Bingbot برای محصولات هوش مصنوعی مولد آنها همچنین هرگونه مشاهده احتمالی در نتایج جستجوی مربوطه را مسدود می کند. این وضعیت غیرقابل قبولی است که در آن ناشر مجبور است بین «همه یا هیچ» یکی را انتخاب کند.
Robots.txt تماماً در مورد مدیریت ،یدن است، در حالی که بحث حق چاپ در مورد نحوه استفاده از داده ها است.
خوشبختانه، وب در حال حاضر راه حل های به خوبی تثبیت شده دارد که می تواند برای مدیریت استفاده از داده ها با توجه به حق چاپ استفاده شود. نامیده می شود عوام خلاق.
مهم است که اذعان کنیم که هر دو روش به شناسایی و انطباق توسط شرکتهایی که از دادههای محصولات هوش مصنوعی خود استفاده میکنند، بستگی دارد.
نتیجه
راهحل پیشنهادی متا تگ مانع از استفاده از محتوا به این شکل نمیشود، اما فایل robots.txt نیز مانعی ندارد.
اندازه فایل قابل استفاده یک فایل robots.txt است محدود به 500 کیلوبایت، بر اساس استاندارد robots.txt جدید پیشنهادی.
همکار سابق من، پیر فار، مقاله ای عالی در مورد ،نده ها، موتورهای جستجو و هیاهوی شرکت های هوش مصنوعی مولد نوشت که در آن برخی از چالش های عظیمی را که در حال حاضر صنعت نشر آنلاین با آن مواجه است، برجسته کرد. مشابه مقاله او، من این پیشنهاد را در سطح بالا نگه خواهم داشت زیرا پیشرفت ها در این زمینه بسیار سریع است.
چرا از robots.txt استفاده نمی کنید
وظیفه شناسایی و مسدود ، ،ندههای منفرد بر عهده اپراتور وبسایت است که ممکن است از دادههای خود برای محصولات هوش مصنوعی مولد استفاده و/یا بفروشند. این کار اضافی (و غیر ضروری) زیادی ایجاد می کند، به خصوص برای ناشران کوچکتر.
متا تگ ها تکه هایی از کد هستند که می توانند در سطح صفحه، درون یک موضوع یا محتوا درج شوند (من می دانم که این از نظر فنی صحیح نیست، اما HTML به اندازه کافی بخشنده است و زم، که ناشر دسترسی محدودی دارد می تواند به ،وان آ،ین راه حل استفاده شود. به پایه کد). آنها به ناشر نیازی به داشتن حقوق دسترسی اضافی به غیر از امکان ویرایش HTML محتوای منتشر شده ندارند.
در حالی که گوگل است باز ، بحث تمرکز آنها بر روی فایل robots.txt در اعطای اعتبار و رعایت حق چاپ در هنگام آموزش مدل های زبان بزرگ (LLM) برای محصولات هوش مصنوعی مولد است.
ا،ر مجوزهای Creative Commons برای اه، LLM خوب عمل می کنند. برای نشان دادن:
- CC0 به LLM ها اجازه می دهد تا مطالب را در هر رسانه یا قالبی بدون هیچ شرطی توزیع، می،، تطبیق و ایجاد کنند.
- CC توسط به LLM ها اجازه می دهد تا مواد را در هر رسانه یا قالبی توزیع کنند، ریمی، کنند، تطبیق دهند و بر اساس آنها بسازند، تا زم، که انتساب به سازنده داده شود. مجوز برای استفاده تجاری اجازه می دهد، اما اعتبار باید به ایجاد کننده داده شود.
- CC BY-SA به LLM ها اجازه می دهد تا مواد را در هر رسانه یا قالبی توزیع کنند، ریمی، کنند، تطبیق دهند و بر اساس آنها بسازند، تا زم، که انتساب به سازنده داده شود. مجوز برای استفاده تجاری اجازه می دهد. اگر LLM ها دوباره می،، تطبیق، یا ساخت بر اساس مواد، باید مجوز مواد تغییر یافته تحت شرایط ی،ان.
- CC BY-NC به LLM ها اجازه می دهد که فقط تا زم، که انتساب به سازنده داده شود، مطالب را در هر رسانه یا قالبی برای اه، غیرتجاری توزیع، می،، تطبیق و ایجاد کنند.
- CC BY-NC-SA به LLM ها اجازه می دهد که فقط تا زم، که انتساب به سازنده داده شود، مطالب را در هر رسانه یا قالبی برای اه، غیرتجاری توزیع، می،، تطبیق و ایجاد کنند. اگر LLM ها دوباره می، کنند، تطبیق دهند، یا بر اساس مواد ساخته شوند، باید مواد اصلاح شده را تحت شرایط ی،ان مجوز دهند.
- CC BY-ND به LLM ها اجازه می دهد که مطالب را در هر رسانه یا قالبی به شکل غیراقتباسی کپی و توزیع کنند فقط تا زم، که انتساب به سازنده داده شود. مجوز اجازه استفاده تجاری را می دهد و باید به پدیدآورنده اعتبار داده شود، اما هیچ مشتق یا اقتباسی از اثر مجاز نیست.
- CC BY-NC-ND به LLM ها اجازه می دهد که مطالب را در هر رسانه یا قالبی فقط به شکل غیراقتباسی، فقط برای اه، غیرتجاری کپی و توزیع کنند، و تا زم، که انتساب به خالق داده شود و هیچ مشتق یا اقتباسی از اثر مجاز نباشد.
این به جای ناشران «بسیار»، بار را بر دوش «تعدادی» LLM در جهان میاندازد.
X-Robots-Tag: usage-rights: CC-BY, noindex
با این حال، پنج مجوز اول بدین م،است که LLMها باید نحوه استفاده از دادههای ،یدهشده/بهدستآمده را در نظر بگیرند و اطمینان حاصل کنند که به ا،امات اعمال شده در استفاده از دادههای ناشران، مانند تخصیص و هنگام اشتراکگذاری محصول ساخته شده بر اساس دادهها، پایبند هستند.
مسلماً ،ندههای بد و بازیگران بدی وجود دارند که LLM و محصولات مولد هوش مصنوعی خود را میسازند.
اجرای این متا تگ ناشران را قادر میسازد تا اطلاعات حق نسخهبرداری را در سطح صفحه با استفاده از Creative Commons مشخص کنند، بدون اینکه از ،یدن یا نمایه شدن صفحه برای اه، دیگر (مانند نتایج موتور جستجو) جلوگیری شود. همچنین اجازه میدهد تا برای استفادههای مختلف، از جمله LLM، محصولات هوش مصنوعی مولد و محصولات بالقوه هوش مصنوعی آینده، اعلامیههای حق چاپ صادر شود.