فایل Robots.txt و تاثیر آن بر سئو

وب سایت خود را دوستدار سئو و مطابق با استاندارهای سایت entityseo SEO طراحی کنید. توسط پارامتر sitemap نیز می توانید محل دقیق فایل نقشه سایت را به ربات اعلام کنید تا به راحتی به نقشه سایت و تمام صفحات ثبت شده در آن دسترسی داشته باشند. 1. در ستون Action مشخص کنید که می خواهید دسترسی لینکی را ببندید یا باز بگذارید. 6. در پایان در بخش Your Robots.txt File می توانید کد را کپی کنید و در فایل خود در هاست قرار دهید. پس بلاک کردن بخش هایی غیرضروری سایت برای ربات ها توسط فایل روبوت، به بهینه سازی بودجه خزش کمک می کند. همچنین یک چک لیست سئو سایت آماده کرده ایم که به بهینه سازی سئو سایت شما کمک می کند. شما به راحتی میتوانید یکی از صفحات محتوای تکراری خود را در فایل Robots.txt خود Disallow کنید تا رباتهای کراولر آنها را ایندکس نکنند. پس برای اینکه به آنها بگویید صفحهای را ایندکس نکنند باید از دستور Disallow و برای اینکه بگویید بعدا این صفحه را کراول کنند از دستور Crawl-delay باید استفاده کنید. شما با این دستور میتوانید اجازه خزیدن به رباتهای گوگل را در یک URL یا پوشهی خاص را بدهید، حتی اگر دسترسی به Parent page یا زیرپوشه آن غیر مجاز باشد.

اگر هم چیزی از سئو نمی دانید و می خواهید به صورت رایگان اطلاعات خوبی را به دست بیاورید، مقاله آموزش سئو را بخوانید. شما می توانید کتاب آموزش سئو را به صورت رایگان از سایت دانلود کنید. دستورات بیشتری هم می توانید وارد کنید. اگر می خواهید اطلاعات بیشتری از این ها داشته باشید، می توانید جستجو کنید. برای جلوگیری از ایندکس شدن صفحه در گوگل، باید از تگ متا روبوت در صفحه استفاده کنید و ویژگی noindex را به آن صفحه بدهید. منظور از Directives همان قوانینی هستند که ربات ها باید پیروی کنند. در اینجا این Directives ها را بررسی می کنیم و مثال می زنیم. باید بدانید که موتورهای جستوجو رباتهای متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، میتوانیم ربات خاصی را مشخص کنیم. موتور های جستجو با ربات هایی که دارند وب را می گردند و لینک ها را دنبال می کنند و صفحات سایت های سراسر اینترنت را پیدا می کنند. 1. خرید دامنه هایی که با موضوع سایت شما تطابق دارند و از دسترس خارج شده اند. قواعد داخل فایل روبوت مشخص می کند که موتور های جستجو به چه صفحات و URL هایی اجازه دسترسی دارند و به چه صفحات و URL هایی اجازه دسترسی ندارند.

البته میتوانیم با دستور Crawl-delay، گشتن و کراول کردن آنها را برای صفحهای خاص به تاخیر بیاندازیم. برخی از موتورهای جستوجو مانند گوگل رباتهای خاص برای خود داند. این دستور برای رباتهای گوگل ناشناخته است، اما میتوانید از طریق گوگل سرچ کنسول، سرعت خزیدن را تنظیم کنید. نقشه سایت: این دستور توسط رباتهای جستوجو گوگل، یاهو، بینگ و ASK قابل شناسایی است. نقشه سایت یا سایت مپ در واقع یک فایل XML است که محتواهای موجود در سایت شما را در خودش دارد و همهچیز را ثبت میکند، مانند یک جعبه سیاه! البته راههای دیگری برای مبارزه با محتوای تکراری وجود دارد که میتوانید از آنها هم استفاده کنید. می توانید طوری تعریف کنید که شامل تمام ربات ها شود. به عنوان مثال اگر بخواهید دسترسی تمام ربات ها را به صفحه admin ببندید، کافیست کدی مانند زیر در فایل بنویسید. این دستور برعکس دستور قبلی است و اجازه دسترسی به ربات ها را می دهد.

چون تمرکز ما بیشتر روی گوگل است، پس جزئیات این پارامتر ها را بیان نمی کنیم و دستوراتی که در بالا گفته شد، برای ما کافی است. البته خیلی نمی توان این مورد را عیب گذاشت چون وظیفه این فایل نیست. عیب: صفحه ای را از گوگل حذف نمی کند! تعیین تأخیر خزیدن به منظور جلوگیری از بارگیری بیش از حد سرورهای سایت، زمانیکه رباتهای خزنده در یک زمان چندین URL را بارگیری (Load) میکنند. البته یک بار دیگر هم می گویم که بلاک کردن صفحه در فایل robots.txt، لزوما به معنای جلوگیری از ایندکس شدن نیست! زمانی که میخواهید یک URL را مسدود یا اجازه ورود دهید، فایلهای Robots.txt کمی پیچیده میشوند چون با استفاده از تطبیق الگوها (Pattern-matching) میتوانند طیف وسیعی از URLها را پوشش دهند. در همین حال یک ربات کراولر موتورهای جستوجو، پس از ورود به سایت و قبل از Spidering، به دنبال فایل Robot.txt سایت میگردد. اگر رباتهای کراولر یک فایل Robot.txt را پیدا کنند، از آنجا که این فایل حاوی دستورالعمل برای عملکرد رباتها در سایت است، ربات شروع به خواندن فایل میکند، اما اگر فایل Robots.txt را پیدا نکند یا دستورالعملی در آن فایل برایش مشخص نشود، ربات شروع به خزیدن آزادانه در سایت میکند و اطلاعات شما را ایندکس میکند.

در این مقاله یاد گرفتیم که از طریق فایل robots.txt می توانیم دسترسی ربات ها را به برخی از صفحات و بخش های سایت (به دلایل مختلفی که گفته شد) ببندیم. الان بخش wp-admin کامل بسته شده است اما یک فایل که در مسیر wp-admin/admin-ajax.php است را باز کرده است تا استثنا به این فایل دسترسی داشته باشند. این دقیقا مثالی است که بالاتر زدیم. چگونه این فایل را ویرایش کنم؟ فایل robots.txt یک فایل متنی است که زمانی ورود به سایت، این فایل را می خوانند (در صورت وجود) و قوانین آن را مدنظر قرار می دهند. اگر نبود یعنی ساخته نشده است یا توسط پلاگین ها (مانند افزونه یواست سئو)، به صورت مجازی ساخته شده است. افزونه یواست سئو یکی از آن هاست. اما افزونه هایی در وردپرس هستند که به شما کمک می کنند این فایل را بسازید. اگر می خواهید سئو را به طور کامل یاد بگیرید، این دوره را به شما پیشنهاد می کنیم. در این مقاله به طور کامل این فایل را بررسی می کنیم و می سازیم اما در دوره آموزش سئو نیز به صورت عملی و ویدئویی این فایل را بررسی کرده ایم و ساخته ایم.

سایت مپ، سایت شما نیز در دستورات فایل Robot.txt قرار میگیرد که به رباتهای موتورهای جستوجو میگوید فایل XML نقشه سایت کجاست. فرمت فایل Robots.txt شما باید ASCII یا UTF-8 باشد و مستقیم در دایرکتوری ادمین هاست شما اپلود شود. حالا اگر ما بیاییم و بخش هایی از سایت که واقعا نیاز نیست توسط گوگل بررسی و ایندکس شود (مثلا بخش پنل ادمین یا لینک های بدون محتوا) را برای این ربات ها ببندیم، بودجه مشخص شده برای ما، صرف قسمت های مهم تر سایت می شود. اگر سوال یا نظری دارید، حتما از بخش نظرات همین مطلب با ما در میان بگذارید و ما را خوشحال کنید. برای ایندکس نشدن باید صفحه را noindex کنید. همانطور که در بالا گفته شد میشود صفحه نتایج جستوجو داخلی سایت را از ایندکس شدن و نمایش در صفحه نتایج جستوجو موتورهای جستوجو مانند گوگل را به وسیله فایل Robots.txt مسدود کرد. در غیر این صورت عمل نخواهد کرد. محتواها را ایندکس کنند تا به کسانی که دنبال اطلاعات در دنیای وب هستند نشان دهند. دنیای وب را بگردند و محتواها را کشف کنند. کافیست همین فایل را در فولدر روت سایت خود قرار دهید. کافیست وارد فایل منیجیر هاست خود شوید و فولدر روت سایت، این فایل را ببینید.

درک کد های نوشته شده در آن زیاد سخت نیست و با هم در این ادامه یاد می گیریم که هر کد و سینتکس چه معنایی دارد. بهینهسازی فایل Robots.txt بستگی به محتواهایی که در سایت شما وجود دارند، دارد. User-agent: به رباتهای اختصاصی وب که شما به آنها دستورالعملهای خزیدن (معمولاً موتور جستجو) میدهید میگویند. یکی از بزرگ ترین اشتباهاتی که ما مرتباً با آن مواجه می شویم این است که صاحبان سایت صفحات خود را با کلمات کلیدی معمولی بهینه می کنند، در صورتی که تنها کلمات کلیدی می توانند منجر به بهینه سازی سایت شما شوند که اختصاصی باشند و کاربران از آن ها استفاده کنند. هر زیر دامنه از دامنهی اصلی باید فایل Robots.txt اختصاصی و جداگانه داشته باشند. اگر با سایت مپ آشنا نیستید، در یک مقاله جداگانه به این موضوع پرداختیم که می توانید در سایت مطالعه کنید. 5. از سرعت بالای بارگذاری سایت خود اطمینان حاصل کنید.

موتورهای جستوجو برای خزیدن در سایتها لینکها را دنبال میکنند و از این سایت به سایتهای دیگر میروند تا میلیاردها صفحه و لینکهای دیگر را کشف کنند. گوگل رباتهایی دارد که عکس را جستوجو میکنند و رباتهایی نیز دارند که به سراغ محتواها میروند. پارامتر های دیگری برای فایل روبوت وجود دارند اما برخی از آن ها را دیگر گوگل پشتیبانی نمی کند. دیگر اعتباری از آن جا منتقل نمی شود. 3. از HTTPS استفاده کنید. 2. از ستون Robot نوع ربات را انتخاب کنید. فایل robots.txt (روبوت) یکی از اصلی ترین فایل هایی است که به موتور های جستجو ماننند گوگل می گوید که چه جا هایی از سایت را اجازه دارد ببیند و چه جا هایی را اجازه ندارد. اما وجود آن در این فایل، برای ربات های سایر موتور های جستجو مفید است و بهتر است قرار دهید. امیدوارم این مقاله آموزشی برای شما مفید بوده باشد و و اطلاعات و راهنمایی های کاملی در مورد فایل robots.txt به دست آورده باشید. داشتن فایل Robots.txt اگر در یک اشتباه خطرناک تمام سایت خود را برای رباتهای موتورهای جستوجو ممنوع نکنید، میتواند در مواردی مفید باشد. اما اگر نمی خواهید درگیر کد شوید، یک سایت وجود دارد که به شما کمک می کند با وارد کردن صفحات و دستورات خود در یک فرم، فایل robots.txt را تحویل بگیرید!

وفتی ربات موتور های جستجو می خواهند وارد سایتی شوند، این فایل robotx.txt چک می کنند و اگر دسترسی به صفحات خاصی از طریق فایل روبوت بسه شده باشد، موتور های جستجو دیگر آن صفحه را نمی بینند. اگر ربات گوگل نتواند صفحه را کراول کند، پس اعتبار لینک هم منتقل نمی شود. در این حالت حتی اگر گوگل به آن صفحه هم دسترسی داشته باشد، به دلیل noindex بودن آن، صفحه را در گوگل ایندکس نمی کند. اما نمی توانید از طریق این فایل به آن ها بگویید که چه صفحاتی را در نتایج نمایش دهند یا ندهند! اگر از وردپرس هم استفاده می کنید، افزونه Yoast SEO به طور پیشفرض این فایل را (به صورت مجازی) می سازد. به طور کلی بهترین مکان قرار دادن نقشه سایت (Sitemap) در انتهای فایل Robots.txt تان است. نه صرفا برای وردپرس بلکه برای تمام سایت ها اینطور است. البته اگر قبلا سایت مپ خود را از طریق گوگل سرچ کنسول ثبت کرده باشید، برای گوگل دیگر نیاز نیست که اینجا هم این فایل را قرار دهید.

همچنین اگر هدف شما این است که سئو را کامل یاد بگیرید، پیشنهاد ما دوره آموزش سئو است. نام فایل به شدت مهم است و باید درست robots.txt باشد و تمام حروف نیز کوچک باشد. شاید استفاده از robots.txt برای برخی سایت های کوچک چندان ضروری نباشد. از آنجا که این فایل به حروف کوچک و بزرگ حساس است نباید نامهایی مانند ROBOTS.txt یا robots.TXT یا نامهای دیگر داشته باشد. بیشتر موتور های جستجو از جمله گوگل، به قوانین این فایل احترام می گذارند و عمل می کنند اما موتور جستجو هایی هستند که ممکن است زیاد به این قواعد پایبند نباشند. راههای بسیار زیادی وجود دارد تا از این فایل سود ببرید. مثلا شاید شما بخش blog را بسته باشید اما در زیر مجموعه آن یک پست یا صفحه ای قرار دارد که می خواهید ربات ها به آن دسترسی داشته باشند. در این بخش با کد های محتوای robots.txt آشنا می شویم تا هم آن ها را درک کنیم و هم بتوانیم خودمون دستورات مورد نظرمان را بنویسیم.

حتی اگر بعد از آدرس blog یک مسیر دیگر وجود داشته باشد، باز هم دسترسی نخواهند داشت. مثلا اگر کد زیر در robots.txt باشد، یعنی هیچ رباتی اجازه دسترسی به بخش blog را ندارد. در این بخش بیایید مزایا و معایب این روبوت را بررسی کنیم. مزایا و معایب فایل robots چیست؟ فایل robots.txt چیست و چه کار می کند؟ برای ساخت فایل robots.txt چه در وردپرس و چه در سایر CMS ها، آموزش متفاوتی وجود ندارد. ربات های کراولر گوگل یا سایر موتور های جستجو، برای هر سایت یک بودجه مشخص برای خزش آن در نظر می گیرند. یعنی شما می توانید به کمک این پارامتر، دسترسی به یک مسیر را در سایت خود، فقط برای گوگل ببندید اما سایر موتور های جستجو دسترسی داشته باشند! فقط یک دستور Disallow برای هر URL میتواند استفاده شود. Disallow: با این دستور به رباتهای کراولر میگویید اجازه خزیدن در یک Url خاص را ندارید.

توسط علی جهانی

علی جهانی ملقب به سنیور سئو است