جان مو، از گوگل اخیرا به این سوال پاسخ داد که آیا یک آستانه درصدی برای تکرار محتوا وجود دارد که گوگل از آن برای شناسایی و فیلتر ، محتوای تکراری استفاده می کند.
چند درصد برابر با محتوای تکراری است؟
مکالمه در واقع در فیس بوک زم، شروع شد که Duane Forrester (@DuaneForrester) پرسیده شد آیا ،ی میداند آیا موتور جستجو درصدی از همپوش، محتوا را منتشر کرده است که در آن محتوا تکراری در نظر گرفته میشود.
بیل هارتزر (بهارتزر) برای پرسیدن از جان مو، به توییتر روی آورد و تقریباً بلافاصله پاسخی دریافت کرد.
«هی @johnmu آیا درصدی وجود دارد که محتوای تکراری را نشان دهد؟
به ،وان مثال، آیا باید سعی کنیم مطمئن شویم که صفحات حداقل 72.6 درصد نسبت به سایر صفحات سایت ما منحصر به فرد هستند؟
آیا گوگل آن را اندازه گیری می کند؟»
جان مو، از گوگل پاسخ داد:
هیچ عددی وجود ندارد (همچنین چگونه آن را اندازه گیری می کنید؟)
— 🌽〈لینک href=//johnmu.com rel=canonical 〉🌽 (@JohnMu) 23 سپتامبر 2022
گوگل چگونه محتوای تکراری را تشخیص می دهد؟
مت،وژی گوگل برای شناسایی محتوای تکراری سال هاست که به طرز قابل توجهی مشابه است.
در سال 2013، مت کاتز (@mattcutts)، مهندس نرم افزار در آن زمان در گوگل یک ویدیوی رسمی گوگل منتشر کرد توضیح می دهد که چگونه گوگل محتوای تکراری را تشخیص می دهد.
او این ویدئو را با بیان اینکه حجم زیادی از محتوای اینترنتی تکراری است و این یک اتفاق عادی است، شروع کرد.
مهم است که بد،د اگر به محتوای موجود در وب نگاه کنید، چیزی حدود 25٪ یا 30٪ از کل محتوای وب محتوای تکراری است.
… مردم یک پاراگراف از یک وبلاگ را نقل قول می کنند و سپس به وبلاگ پیوند می دهند، این نوع چیزها.”
او ادامه داد که از آنجایی که بسیاری از محتوای تکراری بی گناه و بدون هدف اسپم هستند، گوگل آن محتوا را جریمه نمی کند.
او گفت که جریمه ، صفحات وب برای داشتن محتوای تکراری تأثیر منفی بر کیفیت نتایج جستجو خواهد داشت.
کاری که گوگل هنگام یافتن محتوای تکراری انجام می دهد این است:
«…سعی کنید همه آنها را با هم گروهبندی کنید و طوری رفتار کنید که انگار فقط یک قطعه محتوا است.»
مت ادامه داد:
“این فقط به ،وان چیزی است که ما باید به طور من، خوشه بندی کنیم. و ما باید مطمئن شویم که این رتبه بندی درست است.»
او توضیح داد که گوگل سپس انتخاب می کند که کدام صفحه را در نتایج جستجو نشان دهد و صفحات تکراری را فیلتر می کند تا تجربه کاربر را بهبود بخشد.
Google چگونه محتوای تکراری را مدیریت می کند – نسخه 2020
به سرعت به سال 2020 بروید و Google یک ،مت پاد،ت Search Off the Record را منتشر کرد که در آن همان موضوع به زبان بسیار مشابهی توضیح داده شده است.
اینجاست بخش مربوطه از آن پاد،ت از دقیقه 06:44 بعد از اپیزود:
گری ایلیز: و اکنون به مرحله بعدی رسیدیم که در واقع متعارف سازی و تشخیص فریب است.
مارتین اسپلیت: آیا این یک جور نیست، تشخیص فریب و قانونی ،، به نوعی؟
گری ایلیز: [00:06:56] خوب، اینطور نیست، درست است؟ زیرا ابتدا باید فریبها را شناسایی کنید، اساساً آنها را با هم جمع کنید و بگویید که همه این صفحات فریبهای یکدیگر هستند.
و سپس باید اساساً یک صفحه رهبر برای همه آنها پیدا کنید.… و آن متعارف سازی است.
بنابراین، شما ت،یر را دارید، که کل اصطلاح است، اما در درون آن، خوشهسازی دارید، مانند ساختن خوشهای فریبنده، و متعارفسازی. “
گری در ادامه توضیح می دهد که دقیقاً چگونه این کار را انجام می دهند. اساساً، گوگل واقعاً درصدها را دقیقاً بررسی نمیکند، بلکه به مقایسه چکسامها میپردازد.
می توان گفت که یک چک سام نمایشی از محتوا به صورت مجموعه ای از اعداد یا حروف است. بنابراین اگر محتوا تکراری باشد، توالی اعداد چک جمع مشابه خواهد بود.
گری آن را اینگونه توضیح داد:
بنابراین، برای تشخیص فریبکاری، کاری که ما انجام می دهیم، خوب، ما سعی می کنیم فریبکاران را شناسایی کنیم.
و نحوه انجام این کار شاید بیشتر افراد در سایر موتورهای جستجو این کار را انجام میدهند، که اساساً محتوا را به یک هش یا چکجمع کاهش میدهند و سپس چکسامها را با هم مقایسه میکنند.
گری گفت که گوگل این کار را به این روش انجام می دهد زیرا آسان تر (و بدیهی است دقیق) است.
گوگل محتوای تکراری را با چکسام تشخیص میدهد
بنابراین زم، که در مورد محتوای تکراری صحبت می شود، احتمالاً یک آستانه درصد نیست، جایی که یک عدد وجود دارد که گفته می شود محتوا تکراری است.
اما در عوض، محتوای تکراری با نمایشی از محتوا در قالب یک چکسوم شناسایی میشود و سپس آن چکسامها با هم مقایسه میشوند.
یک نکته دیگر این است که به نظر می رسد تمایزی بین زم، که بخشی از محتوا تکراری است و تمام محتوا تکراری وجود دارد.
تصویر برجسته توسط Shutterstock/Ezume Images
منبع: https://www.searchenginejournal.com/google-on-percentage-that-represents-duplicate-content/465885/