فایل Robots.txt چیست؟

با توجه به اینکه گوگل وب سایت ها را از طریق URL شناسایی میکند و نه شکل و محتوای آنها، در صورتی که دامنه اصلی را انتخاب نکنید ممکن است این موتور جستجو آدرس های مختلف وب سایتتان را به عنوان سایت های دارای محتوای تکراری شناسایی کند! بلکه سایت را بدون ظاهر گرافیکی آن و صرفا از طریق کد ها مشاهده می کنند. دقت کنید که آدرس سایت شما بدون HTTPS و با HTTPS میتواند برای گوگل به عنوان دو سایت متفاوت شناخته شود. خوشبختانه معمولاً ایجاد یک پایه تکنیکال قوی با ایجاد تجربیات بهتر برای موتورهای جستجو و کاربران تلاقی دارد. بنابراین با بهبود جنبههای فنی سایت به موتورهای جستجو کمک میکنید تا سایت شما را خزش کرده و بهتر آن را درک کنند. اگر این کار درست انجام شود، نتیجه آن دریافت رتبههای بهتر خواهد بود. در صورت حاکم بودن همچین شرایطی، نداشتن فایل robots.txt و بازگشت وضعیت 404 در صورت لزوم کاملاً قابل قبول خواهد بود.

بعضی از فایلهای جاوا اسکریپت به طور چشمگیری در تجربه کاربری دخیل هستند، اما زمانی که با استفاده از فایل ربات، دسترسی خزندههای موتور جستجو را به آنها ممنوع کنید، ممکن است منجر به از دست دادن رتبه و پنالتی برای وبسایت گردد. با فعالسازی آنها در ابتدا به تجربه بهتر کاربران کمک می کنید و سپس با ایجاد لینک های داخلی باعث میشوید که ربات های موتور جستجو بهتر به صفحات مختلف سایتتان دسترسی داشته باشند. سپس فایل را ذخریه کرده (توجه کنید که فایل خود را بر روی UTF-8 تنظیم کرده باشید) و آن را بر روی روت سایت خود آپلود کنید. گوگل از این واقعیت که وبسایتهای کند تجربه خوبی برای کاربران فراهم نمیکنند مطلع است و به همین دلیل سایتهایی که سریع تر بارگذاری میشوند از نظر گوگل اولویت و امتیاز بیشتری دارند بنابراین سایتی که سرعت بارگذاری خوبی نداشته باشد نسبت به سایتهای مشابه با سرعت بالاتر رتبه پایین تری خواهد داشت و حتی ممکن است مقداری از ترافیک خود را از دست بدهد. با کمک کتابخانه های جاوا اسکریپت این ساختار درختی میتواند از جذابیت های گرافیکی بیشتری نیز استفاده کند.

تفاوت این فایل با فایل سایت مپ در این است که با استفاده از این فایل، برای ربات های موتور های جستجو گر، محدودیت در دسترسی به صفحات مختلف تعیین میکنیم. حال شما درک تفاوت بین نقشههای سایت XML و HTML را پیدا کردید. در سایت های وردپرسی افزونه هایی برای ساخت نقشه سایت وجود دارند مثل افزونه Google XML Sitemaps و یا افزونه yoast seo. هر دو نقشههای سایت XML و HTML به موتورهای جستجو برای بررسی (crawl) سایت شما کمک میکنند. این روش بسیار کاربردی است زیرا موتورهای جستجو این بخش را ایندکس نمیکنند. فعالسازی بردکرامب هم یک بخش از سئو تکنیکال سایت است. این نقشه یک آدرس از کل صفحات و محتواهای سایت ما است که با هر بروز رسانی و ایجاد صفحه جدید، آن نیز به روز رسانی میشود تا در بازدید های بعدی به ربات های جستجو گر برای ایندکس (فهرست بندی) سایت کمک کند.

زمانیکه شما یک نقشه سایت ایجاد میکنید، و مثلا آن را به ابزار وبمستر گوگل ارسال میکنید گوگل میتواند نقشه سایت شما را بررسی (crawl) کند. مثلا “Disallow: /news” را در نظر بگیرید، این دستور به این معنی است که هر URL که به شکل “https://example.com/news” باشد و یا در ادامه آن چیزی نوشته شده باشد را کراول نکند. ” در فایل ربات به خزندهها اعلام میکنید که در هر URL که عبارت “products? در این بخش ما برای شما یک نمونه از فایل ربات که برای سایتهای وردپرسی توصیه شده است را معرفی میکنیم. ربات های گوگل سایت ها را به این صورتی که ما میبینیم مشاهده نمی کنند. در ادامه با ما همراه باشید تا آموزش کامل فایل robots.txt را به شما یاد دهیم. اما در مرحله اول، باید بردکرامب آدرس صفحات سایت را با کمک همین افزونه های گفته شده فعال کنید. یعنی با این روش شما به عنوان مالک یک سایت میتوانید تصمیم بگیرید که آیا مایل هستید صفحه ایجاد شده در گوگل ایندکس شود یا خیر. گوگل توصیه کرده است که فقط robots.txt را هنگام بروز مشکلات مربوط به سرور یا ایجاد ایرادات مربوط به بازده خزیدن استفاده کنید، برای مثال وقتی که ربات Googlebot زمان زیادی را صرف خزیدن در بخشی از سایت که قابلیت ایندکس شدن را ندارد صرف کند باید با استفاده از فایل ربات این مشکل را برطرف کرد.

بهتر است این موارد را در کنسول جستجوی گوگل کنترل کنید تا مشاهده کنید که با این کار بر روی پارامتر دیگری که ایندکس شدن آن ضروری است تاثیر نگذاشته باشید. برای این کار بهتر است که بیاید URLهایی که دارای این رشته حروف هستند را یکجا ببندید تا اینکه لیست بلندی از URLهایی که دارای این رشته حروف هستند را تهیه کرده و در فایل ربات بارگزاری کنید. شاید با خود بگویید این امر که کاملا مشخص و واضح است و نیازی به تفسیر ندارد. البته استفاده از کد های نشانه گذاری مزیت های دیگری نیز برای سایت دارد که در مقاله مربوط به خود به معرفی آنها میپردازیم. شما میتوانید به این سایت ها رفته و با ورود آدرس سایت و سایر مشخصات خواسته شده برای سایت خود یک سایت مپ ایجاد کرده و آنرا دانلود و در آخر هم در سرور خود بار گذاری کنید. فایل robot.txt نیز یکی دیگر از راه ها برای بررسی بهتر سایت توسط ربات های جستجو است.

بنابراین بعد از فعالسازی SSL، نسخه اصلی را برای گوگل تعیین کنید. بنابراین به شدت به این نکته دقت کنید. دقت کنید که بردکرامب ها انواع مختلفی دارند و صرفا به یک نوع محدود نمی شوند. تعداد این پلاگین ها بقدری است که نامبردن آنها خود چندین و چند صفحه خواهد شد. در این بخش، ما چندین روش مختلف برای قالب بندی ترکیب بلوکها بیان خواهیم کرد. شرایطی که چندین بلوک با User-agent یکسان با هم ترکیب شوند. بنابراین در مثال زیر، بلوکهای بالا و پایین با هم ترکیب شدهاند و Googlebot از خزیدن “/b” و “/a” منع شده است. اگر نمیدانید که چطور باید همه آدرس های سایت را روی یک آدرس ریدایرکت کنید، با طراح سایت یا پشتیبانی شرکت هاستینگ خودتان این موضوع را مطرح کنید. این نماد برای مشخص کردن رشته حروفی که در آخر URL قرار دارند مورد استفاده قرار میگیرد. گوگل و سایر موتورهای جستجو سعی دارند بهترین نتایج ممکن را به کاربران خودشان نمایش دهند بنابراین رباتهای گوگل صفحات وب را بر اساس عوامل مختلف خزش کرده و ارزیابی میکنند. از robots.txt برای یاد دادن نحوه خزیدن به خزندههای موتورهای جستجو استفاده میکنیم، به این معنی که با دستوراتی که در این فایل مینویسیم به خزندهها اعلام میکنیم چه URLهایی را کراول کنند و آنها را ایندکس کنند و کدام یک از URLها را ایندکس نکنند.

این نکته را فراموش نکنید که هر سایت ربات مخصوص به خود را دارد. اما رفته رفته و با توجه به افزایش تعداد کاربران موبایلی، گوگل نیز توجه خود را به سمت این موضوع معطوف کرد تا جایی که امروزه نتایج جستجوی گوگل در موبایل، با نتایج جستجو در رایانه متفاوت است، زیرا در جستجوی هایی که در تلفن های همراه انجام می پذیرد، گوگل علاوه بر فاکتورهای قبلی سئو، به فاکتور ریسپانسیو بودن یا نبودن سایت نیز اهمیت می دهد. در گذشته واکنشگرا بودن یک سایت اهمیت زیادی در سئو نداشت. هدف اصلی اجرای سئو تکنیکال در وب سایت، آماده کردن سایتی است که در مرحله اول برای رباتهای موتور جستجو به راحتی قابل درک و بررسی باشد و در مرحله دوم سایتی که ساختار صحیحی داشته و کاربر از بودن در آن و کار کردن با بخشهای مختلفش، لذت ببرد! همچنین باعث افزایش ورود کاربران و جذب کاربر از جستجوگرها به وبسایت شما میشود. بردکرامب یا breadcrumbs همان لینک هایی هستند که در بالای هر صفحه به کاربر نشان میدهند که الان دقیقا در کدام بخش از سایت قرار دارد. فایل ربات بر روی پروتکلهای امنیتی SSL و دامنه تاثیر گذار نیست و فقط میتواند هر چیزی را که بعد از نام کامل دامنه در URL قرار میگیرد را تحت تاثیر قرار بدهد.

اما این تصور که سئوی فنی فقط برای جلب نظر موتورهای جستجو انجام میشود کاملاً اشتباه است. برخی از وبسایتها دارای معماری بسیار تمیزی هستند و نیازی به جلوگیری از خزندههای موتورهای جستجو ندارند. باشند تا از دسترسی خزندهها به آن جلوگیری شود. از همین رو با استفاده از این فایل، از شناخته شدن این صفحات جلوگیری میکنیم. دلیل این امر این است که فایل robots.txt برای کنترل خزندهها کاربرد دارد و فرآیند خزیده شدن URL و ایندکس شدن آنها دو عمل کاملا مجزا هستند. به عنوان مثال، اگر شما از یک سرویس تبلیغاتی بینابینی استفاده کنید یا با JavaScript کاربران را بوسیله ریدایرکت به مسیری جدید هدایت کرده باشید و موتور جستجو نتواند به این فایلها دسترسی پیدا کند، ممکن است این عمل شما را اشتباها به عنوان پنهان سازی محتوا یا کلاکینگ (cloaking) تشخیص دهد و رتبه بندی محتوای شما را بر همین اساس تعیین کند. بعضی از این عوامل به تجربیات کاربری مثل سرعت بارگذاری یک صفحه ارتباط دارند و بعضی دیگر به موتورهای جستجو کمک میکنند تا محتوای صفحات را درک کنند. محتوای Robots میزان دسترسی خزنده وب برای ایندکس صفحات را مشخص می کند.

حتی ممکن است با قرار دادن یک اسلش نهایی در نقطهای نادرست از فایل robots.txt باعث پیشگیری از خزش سایت توسط موتورهای جستجو شوید. صفحات نتایج جستجو درون سایت نیز به همین شکل هستند و هیچ وبسایتی نمیخواهد تا موتورهای جستجو این صفحات را در دیتابیس خود ایندکس کنند. مدیران سایت با استفاده کد های معرفی شده در این روش میتوانند سایت خود را به صورت مفهومی تر به خزنده های گوگل معرفی کنند و در عوض رتبه آنها در نتایج جستجو افزایش پیدا میکند. گوگل توصیه میکند که به این صفحات رل noindex را اضافه کنید ولی اجازه کراول شدن را به آنها بدهید. در هر سایت صفحاتی وجود دارند که نیاز به ایندکس شدن آن در گوگل نداریم و یا ایندکس شدن آن میتواند برای امنیت سایت مشکل ساز باشد. هر زمانی که دیگر به این کامنتها نیاز نداشتید میتوانید با خیال راحت آنها را پاک کنید بدون اینکه تغییری در فایل ربات صورت بگیرد. مثلا با www یا بدون آن، همراه با http یا بدون آن و…

سئو تکنیکال (Technical SEO) به مراحل بهینه سازی سایت برای ایندکس و خزش راحتتر موتورهای جستجو گفته سایت entityseo میشود. با اشاره کردن به URL نقشه وبسایت در فایل robots.txt به موتورهای جستجو اعلام کنید که نقشه سایت XML را از کجا میتوانند پیدا کنند. این نقشه سایت همچنین میتواند به فرمت XML ایجاد شود و به موتور جستجو ارسال شود بنابراین آنها میتواند به طور مؤثرتر وبسایت را بررسی (crawl) کنند. نام این راهنما نقشه سایت یا سایت مپ (site map) است. به همین دلیل است که نام تکنیکال یا فنی را برای آن انتخاب کردهاند. نکته مهم در این موضوع این است که پس از ساخت سایت مپ برای اولین بار در سایت، آن را از طریق گوگل کنسول سایت خود به گوگل معرفی کنید. امروزه بیشتر جستجو ها با موبایل و تبلت انجام می شود، چند ماه پیش خبری مبتنی بر تغییر وضعیت ایندکس ربات گوگل به پنل سرچ کنسول تمامی افراد ارسال شد که حاکی از تغییر قانون ایندکس گوگل بود که از این پس ربات دسکتاپ جای خود را به ربات دستگاه های هوشمند می دهد این یعنی از این پس رتبه بندی نتایج جستجو گوگل بر اساس نسخه موبایل انجام صورت می گیرد! به صورت پیش فرض نیازی به افزودن کد خاصی نیست اما اگر قصد انجام تغییرات را دارید پس از اتمام از طریق پنل سرچ کنسول آپدیت را تست کنید.

توسط علی جهانی

علی جهانی ملقب به سنیور سئو است