پیشنهاد یک متا تگ جدید برای LLM/AI

مورد دوم مربوط به مرحله نمایه سازی/پردازش است. به این ترتیب، robots.txt واقعاً به این بحث مربوط نیست، بلکه آ،ین راه حل است، اگر هیچ چیز دیگری کار نمی کند و واقعاً نباید نقطه شروع این بحث خاص باشد.

برای ،نده‌های بزرگ‌تر مانند Googlebot و Bingbot، نمی‌توان بین داده‌هایی که برای صفحات نتایج موتور جستجو استفاده می‌شوند تمایزی قائل شد (به‌طور سنتی، جایی که «توافق‌نامه» بین ناشر و موتور جستجو به شکل «نقل به منبع» وجود دارد. منبع) و محصولات مولد هوش مصنوعی.

توجه: نام “حق استفاده” برای متا تگ یک پیشنهاد است و قابل تغییر است.

راه حل بی عیب و نقص

با این حال، به نظر من، این ابزار اشتباهی است که باید به آن نگاه کرد.

علاوه بر این، من توصیه می کنم که این متا تگ در هنگام استفاده نیز پشتیب، شود هدرهای HTTP، مانند noindex در پشتیب، می شود X-Robots-Tag، برای کمک به ،نده های LLM در مدیریت بهتر منابع ،یدن خود (آنها فقط باید سربرگ های HTTP را بررسی کنند تا حقوق استفاده را تأیید کنند).

و اگرچه تگ های حق چاپ موجود است که می توان از آنها استفاده کرد – به ویژه از هسته دوبلین، استاندارد حقوق (پیشنهاد رها شده)، کپی رایت-متا (به جای مجوز روی نام مالک تمرکز می کند) و تلاش های دیگر – اجرای فعلی این موارد در برخی از وب سایت ها ممکن است با آنچه ما در اینجا انجام دهیم مغایرت داشته باشد.

این بدان م،است که یک ناشر بزرگ ممکن است در صورت نیاز به مسدود ، تعداد زیادی ،نده LLM و/یا ال،ای URL اصلاح شده علاوه بر ربات های دیگر، با فایل robots.txt خود با مشکل مواجه شود.

رویکرد “همه یا هیچ” غیرقابل قبول است

مسدود ، Googlebot یا Bingbot برای محصولات هوش مصنوعی مولد آنها همچنین هرگونه مشاهده احتمالی در نتایج جستجوی مربوطه را مسدود می کند. این وضعیت غیرقابل قبولی است که در آن ناشر مجبور است بین «همه یا هیچ» یکی را انتخاب کند.

Robots.txt تماماً در مورد مدیریت ،یدن است، در حالی که بحث حق چاپ در مورد نحوه استفاده از داده ها است.

خوشبختانه، وب در حال حاضر راه حل های به خوبی تثبیت شده دارد که می تواند برای مدیریت استفاده از داده ها با توجه به حق چاپ استفاده شود. نامیده می شود عوام خلاق.

مهم است که اذعان کنیم که هر دو روش به شناسایی و انطباق توسط شرکت‌هایی که از داده‌های محصولات هوش مصنوعی خود استفاده می‌کنند، بستگی دارد.

نتیجه

راه‌حل پیشنهادی متا تگ مانع از استفاده از محتوا به این شکل نمی‌شود، اما فایل robots.txt نیز مانعی ندارد.

اندازه فایل قابل استفاده یک فایل robots.txt است محدود به 500 کیلوبایت، بر اساس استاندارد robots.txt جدید پیشنهادی.

همکار سابق من، پیر فار، مقاله ای عالی در مورد ،نده ها، موتورهای جستجو و هیاهوی شرکت های هوش مصنوعی مولد نوشت که در آن برخی از چالش های عظیمی را که در حال حاضر صنعت نشر آنلاین با آن مواجه است، برجسته کرد. مشابه مقاله او، من این پیشنهاد را در سطح بالا نگه خواهم داشت زیرا پیشرفت ها در این زمینه بسیار سریع است.

چرا از robots.txt استفاده نمی کنید

وظیفه شناسایی و مسدود ، ،نده‌های منفرد بر عهده اپراتور وب‌سایت است که ممکن است از داده‌های خود برای محصولات هوش مصنوعی مولد استفاده و/یا بفروشند. این کار اضافی (و غیر ضروری) زیادی ایجاد می کند، به خصوص برای ناشران کوچکتر.

متا تگ ها تکه هایی از کد هستند که می توانند در سطح صفحه، درون یک موضوع یا محتوا درج شوند (من می دانم که این از نظر فنی صحیح نیست، اما HTML به اندازه کافی بخشنده است و زم، که ناشر دسترسی محدودی دارد می تواند به ،وان آ،ین راه حل استفاده شود. به پایه کد). آنها به ناشر نیازی به داشتن حقوق دسترسی اضافی به غیر از امکان ویرایش HTML محتوای منتشر شده ندارند.

در حالی که گوگل است باز ، بحث تمرکز آنها بر روی فایل robots.txt در اعطای اعتبار و رعایت حق چاپ در هنگام آموزش مدل های زبان بزرگ (LLM) برای محصولات هوش مصنوعی مولد است.

ا،ر مجوزهای Creative Commons برای اه، LLM خوب عمل می کنند. برای نشان دادن:

  • CC0 به LLM ها اجازه می دهد تا مطالب را در هر رسانه یا قالبی بدون هیچ شرطی توزیع، می،، تطبیق و ایجاد کنند.
  • CC توسط به LLM ها اجازه می دهد تا مواد را در هر رسانه یا قالبی توزیع کنند، ریمی، کنند، تطبیق دهند و بر اساس آنها بسازند، تا زم، که انتساب به سازنده داده شود. مجوز برای استفاده تجاری اجازه می دهد، اما اعتبار باید به ایجاد کننده داده شود.
  • CC BY-SA به LLM ها اجازه می دهد تا مواد را در هر رسانه یا قالبی توزیع کنند، ریمی، کنند، تطبیق دهند و بر اساس آنها بسازند، تا زم، که انتساب به سازنده داده شود. مجوز برای استفاده تجاری اجازه می دهد. اگر LLM ها دوباره می،، تطبیق، یا ساخت بر اساس مواد، باید مجوز مواد تغییر یافته تحت شرایط ی،ان.
  • CC BY-NC به LLM ها اجازه می دهد که فقط تا زم، که انتساب به سازنده داده شود، مطالب را در هر رسانه یا قالبی برای اه، غیرتجاری توزیع، می،، تطبیق و ایجاد کنند.
  • CC BY-NC-SA به LLM ها اجازه می دهد که فقط تا زم، که انتساب به سازنده داده شود، مطالب را در هر رسانه یا قالبی برای اه، غیرتجاری توزیع، می،، تطبیق و ایجاد کنند. اگر LLM ها دوباره می، کنند، تطبیق دهند، یا بر اساس مواد ساخته شوند، باید مواد اصلاح شده را تحت شرایط ی،ان مجوز دهند.
  • CC BY-ND به LLM ها اجازه می دهد که مطالب را در هر رسانه یا قالبی به شکل غیراقتباسی کپی و توزیع کنند فقط تا زم، که انتساب به سازنده داده شود. مجوز اجازه استفاده تجاری را می دهد و باید به پدیدآورنده اعتبار داده شود، اما هیچ مشتق یا اقتباسی از اثر مجاز نیست.
  • CC BY-NC-ND به LLM ها اجازه می دهد که مطالب را در هر رسانه یا قالبی فقط به شکل غیراقتباسی، فقط برای اه، غیرتجاری کپی و توزیع کنند، و تا زم، که انتساب به خالق داده شود و هیچ مشتق یا اقتباسی از اثر مجاز نباشد.

این به جای ناشران «بسیار»، بار را بر دوش «تعدادی» LLM در جهان می‌اندازد.

X-Robots-Tag: usage-rights: CC-BY, noindex

با این حال، پنج مجوز اول بدین م،است که LLMها باید نحوه استفاده از داده‌های ،یده‌شده/به‌دست‌آمده را در نظر بگیرند و اطمینان حاصل کنند که به ا،امات اعمال شده در استفاده از داده‌های ناشران، مانند تخصیص و هنگام اشتراک‌گذاری محصول ساخته شده بر اساس داده‌ها، پایبند هستند.

مسلماً ،نده‌های بد و بازیگران بدی وجود دارند که LLM و محصولات مولد هوش مصنوعی خود را می‌سازند.

اجرای این متا تگ ناشران را قادر می‌سازد تا اطلاعات حق نسخه‌برداری را در سطح صفحه با استفاده از Creative Commons مشخص کنند، بدون اینکه از ،یدن یا نمایه شدن صفحه برای اه، دیگر (مانند نتایج موتور جستجو) جلوگیری شود. همچنین اجازه می‌دهد تا برای استفاده‌های مختلف، از جمله LLM، محصولات هوش مصنوعی مولد و محصولات بالقوه هوش مصنوعی آینده، اعلامیه‌های حق چاپ صادر شود.

بعید است که دو مجوز آ، برای LLM قابل استفاده باشند.

فایل های Robots.txt برای ،نده ها خوب کار می کنند و برای اه، LLM نیازی به تغییر ندارند. بله، ،نده‌های LLM باید خودشان را شناسایی کنند، اما چیزی که واقعاً باید در مورد آن صحبت کنیم فهرست‌بندی/پردازش داده‌های ،یده‌شده است.

اختراع دوباره چرخ

X-Robots-Tag: usage-rights: CC-BY-SA

سه مجوز اول همچنین از استفاده “سنتی” از داده ها پشتیب، می کنند، به ،وان مثال، در نتایج موتورهای جستجو که در آن انتساب/اعتبار از طریق پیوند به وب سایت اصلی داده می شود. در حالی که مجوز چهارم و پنجم نیز از تحقیق و توسعه برای LLM های منبع باز پشتیب، می کند.

این می تواند در ،یب با سایر متا تگ ها استفاده شود. در مثال زیر، صفحه نباید برای نتایج جستجو استفاده شود، اما می‌تواند برای LLM‌های تجاری استفاده شود، زیرا اعتبار طول، به منبع داده می‌شود:

امیدوارم، این مقاله نشان دهد که چگونه استفاده از robots.txt برای مدیریت استفاده از داده در LLMها، به نظر من، رویکرد/نقطه شروع اشتباه برای برخورد با استفاده و حق چاپ در این عصر جدید LLMها و محصولات هوش مصنوعی مولد است.

استفاده از متا تگ ،یدن را متوقف نمی کند، مانند متا نود،. با این حال، این امکان را به شما می دهد تا حقوق استفاده از داده های منتشر شده را به اشتراک بگذارید.

نظرات بیان شده در این مقاله نظرات نویسنده مهمان است و ،وماً سرزمین موتور جستجو نیست. نویسندگان کارکنان در اینجا فهرست شده اند.

منبع: https://searchengineland.com/robots-txt-new-meta-tag-llm-ai-429510

<meta name="usage-rights" content="CC-BY-SA" />

چند دلیل وجود دارد که استفاده از robots.txt نقطه شروع اشتباهی برای بحث در مورد نحوه احترام به حق چاپ ناشران است.

همه LLM ها از ،نده ها استفاده نمی کنند و خود را شناسایی نمی کنند

هنگامی که یک ناشر مجوز من، را شناسایی کرد، این مجوز هنوز باید ابلاغ شود. باز هم، اینجا جایی است که robots.txt رویکرد اشتباهی به نظر می رسد.

بنابراین ممکن است یک متا تگ جدید ضروری باشد، اگرچه من خوشحالم که از یک متا تگ موجود یا قدیمی مانند “حقوق استاندارد” نیز استفاده مجدد می کنم. برای این بحث، من متا تگ جدید زیر را پیشنهاد می کنم:

این همچنین فرض می کند که ناشر به فایل robots.txt خود دسترسی ویرایشی دارد، که همیشه در مورد راه حل های میزب، شده صدق نمی کند.

این یک راه حل پایدار نیست زیرا تعداد ،نده ها همچنان در حال افزایش است

به این ترتیب، برای جدا ، این موارد استفاده و اجازه دادن به یک رویکرد دقیق تر و در عین حال آسان تر برای ناشران، توصیه می کنم به جای آن از یک متا تگ استفاده کنیم.

فقط به این دلیل که یک صفحه باید از ،یدن برای موتورهای جستجو مسدود شود، به این م،ی نیست که نمی توان از آن استفاده کرد یا برای LLM ها مفید نیست. این دو مورد استفاده متفاوت هستند.

نکته جانبی: به خاطر داشته باشید که تمامی این شرکت های نرم افزاری ساختمان LLMها اغلب از نرم‌افزار منبع باز استفاده می‌کنند که در آن چالش‌های مجوز کپی رایت ی،، با توجه به کتابخانه‌های نرم‌افزار و سیستم‌عامل‌هایی که استفاده می‌کنند برای جلوگیری از نقض حق چاپ در سطح کد دارند. پس چرا وقتی می‌تو،م از یک سیستم مشابه برای داده‌هایی که این کد پردازش می‌کند استفاده کنیم، چرخ را دوباره اختراع کنیم؟