فایل robots.txt یکی از عوامل مهم بهینهسازی موتورهای جستجو است که اگر به درستی انجام نشود، ممکن است برای سئوی سایتتان مشکلاتی ایجاد کند.
در این مقاله، من به شما توضیح خواهم داد که چرا هر وبسایتی نیاز به فایل robots.txt دارد و چگونه آن را ایجاد کنید (بدون اینکه مشکلی برای سئو ایجاد شود).
در این مقاله، پاسخ به سؤالات متداول را خواهم داد و نمونههایی از چگونگی اجرای آن را برای وبسایت شما ارائه خواهم داد.
همچنین، یک راهنمای قابل دانلود را نیز برای شما فراهم خواهم کرد که جزئیات کامل را پوشش میدهد.
robots.txt چیست؟
فایل robots.txt یک فایل متنی است که توسط ناشران وبسایت در ریشه وبسایت خود ایجاد و ذخیره میشود. هدف این فایل اطلاع دادن به رباتهای وبی که به صورت خودکار وبگردی میکنند، مانند رباتهای موتورهای جستجو، از صفحاتی است که نباید در وبسایت شما به دنبال شوند. این مسئله همچنین به عنوان پروتکل محرومیت رباتها شناخته میشود.
باید به این نکته توجه داشت که فایل robots.txt تضمین کننده این نیست که آدرسهایی که از جستجو منع شدهاند، به هیچ وجه در نتایج جستجو قرار نگیرند. به این دلیل که رباتهای موتورهای جستجو ممکن است به وسیلهی صفحات دیگری که به این صفحات لینک دادهاند، به وجود آنها پی ببرند. همچنین، این صفحات ممکن است هنوز از گذشته در نتایج جستجوی موتورهای جستجو ثبت شده باشند.
همچنین، فایل robots.txt هیچگونه تضمینی برای اینکه رباتهای موتورهای جستجو صفحاتی که از جستجو منع شدهاند را نگاه نکنند، فراهم نمیکند، زیرا این یک سیستم داوطلبانه است. به طور کلی، بزرگترین رباتهای موتورهای جستجو به دستورات شما توجه میکنند، اما رباتهای بد، مانند اسپم بات، مالور و اسپای ور، اغلب دستورات را رعایت نمیکنند.
لطفا به خاطر داشته باشید که فایل robots.txt به صورت عمومی قابل دسترس است. شما میتوانید با اضافه کردن /robots.txt به پایان URL دامنه، فایل robots.txt آن را ببینید (مانند فایل robots
چرا فایل robots.txt مهم است؟
فایل robots.txt، یک فایل متنی است که صاحبان وبسایت آن را در ریشه وبسایت خود ایجاد و ذخیره میکنند. هدف این فایل، اطلاع دادن به رباتهای وب خودکار مانند رباتهای موتورهای جستجو که از کدام صفحات بر روی وبسایت باید پرش کنند. این عمل به عنوان پروتکل محرومیت ربات ها نیز شناخته میشود.
اما این فایل قطعی نمیکند که صفحاتی که از پرش آنها خودداری شده است، در جستجوی گوگل شناسایی نشوند. این اتفاق ممکن است به دلیل لینک شدن صفحات موجود در وبسایت با صفحات محروم شده، یا به دلیل قبلی بودن این صفحات در نتایج جستجوی گذشته رخ دهد. همچنین این فایل هیچ گونه ضمانتی برای این ندارد که رباتهای وب، صفحات محروم شده را پرش نکنند. این یک سیستم داوولونتری است که در برابر رباتهای بدی مانند اسپم باتها، نرمافزارهای خبیث و جاسوسی اعمال نمیشود.
نکتهی حائز اهمیتی که باید به آن توجه داشت، این است که فایل robots.txt عمومی است و به راحتی قابل دسترسی است. شما میتوانید با افزودن /robots.txt به پایان آدرس وبسایت، فایل robots.txt آن را مشاهده کنید. بنابراین، هیچ فایل یا پوشهای که اطلاعات حیاتی شما را شامل میشود، در این فایل قرار ندهد. همچنین برای محافظت از اطلاعات حساس یا خصوصی خود در برابر موتورهای جستجو، به فایل robots.txt اتکا نکنید.
البته برنامه های robots.txt زیادی وجود دارد و من در این مقاله بیشتر آنها را توضیح خواهم داد.
آیا وجود فایل robots.txt ضروری است؟
بله، هر وب سایتی باید یک فایل robots.txt داشته باشد، حتی اگر خالی باشد. وقتی باتهای موتورهای جستجو به وب سایت شما میآیند، اولین چیزی که به دنبال آن هستند، فایل robots.txt است.
اگر چنین فایلی وجود نداشته باشد، اسپایدرهای موتور جستجو به خطای 404 (پیدا نشد) برمیخورند. گوگل میگوید که Googlebot میتواند به وب سایت بروید و آن را کراول کند حتی اگر فایل robots.txt وجود نداشته باشد، اما ما فکر میکنیم بهتر است که اولین فایلی که یک بات درخواست میکند، بارگذاری شود تا خطای 404 تولید نشود.
چه مشکلاتی می تواند با فایل robots.txt پیش بیاید؟
فایل کوچک robots.txt میتواند در صورت عدم دقت، مشکلاتی را برای بهینهسازی موتورهای جستجو ایجاد کند. در زیر دو شرایطی را برای این فایل بررسی میکنیم که بهتر است به آنها توجه کنید:
1. مسدود کردن کل سایت به صورت تصادفی
یکی از مشکلاتی که ممکن است با robots.txt روبرو شوید، بلاک کردن کل سایت به صورت اتفاقی است. این مشکل بیشتر از آن چیزی است که شما فکر می کنید رخ می دهد. برنامه نویسان می توانند از robots.txt برای مخفی کردن بخشی از سایت در طول فرآیند توسعه استفاده کنند، اما پس از راه اندازی آن را فراموش می کنند. اگر سایتی وجود دارد، این اشتباه می تواند باعث کاهش ناگهانی رتبه سایت در موتورهای جستجو شود.
حالتی که ممکن است در حین آماده سازی سایت یا بخشی از آن برای راه اندازی جدید، کار با robots.txt بسیار مفید است. اما به یاد داشته باشید که در هنگام راه اندازی سایت، این فایل را باز کنید و دستورات آن را به روز رسانی کنید.
2. به استثنای صفحاتی که قبلاً ایندکس شده اند
این به این معنی است که در صورتی که شما صفحاتی که در حال حاضر در ایندکس موتورهای جستجو هستند را در فایل robots.txt خود از جستجو منع کنید، این صفحات همچنان در ایندکس موتورهای جستجو باقی خواهند ماند و از آنها حمایت می کند.
اگر صفحاتی را که قبلاً در نتایج جستجوی گوگل ایندکس شدهاند، در فایل robots.txt بلاک کنید، این باعث میشود که آنها در نتایج جستجوی گوگل به محض حذف فایل robots.txt، دوباره نمایش داده شوند و به نوعی به دام افتاده باشند.
برای حذف یک صفحه از نتایج جستجوی گوگل باید از برچسب meta robots با مقدار “noindex” بر روی آن صفحه استفاده کنید و سپس به گوگل اجازه دهید آن را ایندکس نکند. به عبارت دیگر، از قرار دادن آدرس این صفحات در فایل robots.txt برای حذف آنها از نتایج جستجو استفاده نکنید.
فایل robots.txt چگونه کار می کند؟
برای ایجاد فایل robots.txt میتوانید از یک برنامه ساده مانند Notepad یا TextEdit استفاده کنید. آن را با نام robots.txt ذخیره کرده و در ریشه وب سایت خود به آدرس www.domain.com/robots.txt آپلود کنید – اینجاست که اسپایدرها به دنبال آن میگردند.
یک فایل ساده robots.txt میتواند به شکل زیر باشد:
User-agent: *
Disallow: /directory-name/
گوگل در راهنمایی خود درباره ایجاد فایل robots.txt به خوبی توضیح میدهد که هر خط دستوری در یک گروه، یک دستور راهنما (دستور العمل) را شامل میشود.
هر گروه شامل اطلاعات زیر است:
- کدام User-agent این گروه را اعمال میکند؟ (user-agent)
- کدام فایلها یا دایرکتوریها به این عامل (از نوع User-agent) اجازه دسترسی دارد؟
- کدام فایلها یا دایرکتوریها به این عامل (از نوع User-agent) اجازه دسترسی ندارد؟
دستورات مختلفی که در فایل robots.txt وجود دارند در ادامه توضیح داده خواهند شد.
دستورات متداول در فایل robots.txt عبارتند از:
User-agent
دستور User-agent به رباتیک اشاره دارد که در آن دستورات را اعمال میکنید (به عنوان مثال، Googlebot یا Bingbot). شما میتوانید برای رباتهای مختلف، دستورات مختلفی را تعریف کنید. با استفاده از نشانه * (همانطور که در بخش قبل نشان داده شد)، شما میتوانید تمام رباتها را شامل شوید. شما میتوانید لیستی از رباتهای مختلف را در اینجا مشاهده کنید.
Disallow
دستور Disallow مشخص میکند که کدام پوشه، فایل یا حتی کل دایرکتوری از دسترس رباتهای وب باید محروم شود. به عنوان مثال:
اجازه دهید رباتها به تمام وبسایت دسترسی پیدا کنند:
*:User-agent
:Disallow
اجازه ندهید رباتها به تمام وبسایت دسترسی پیدا کنند:
*: User-agent
/:Disallow
اجازه ندهید رباتها به “/myfolder/” و تمام زیردایرکتوریهای آن دسترسی پیدا کنند:
*:User-agent
/Disallow:/myfolder
اجازه ندهید رباتها به هر فایلی که با “myfile.html” شروع میشود دسترسی پیدا کنند:
*:User-agent
Disallow: /myfile.html
اجازه ندهید Googlebot به فایلها و پوشههایی که با “my” شروع میشوند دسترسی پیدا کند:
User-agent: googlebot
Disallow: /my
Allow
این دستور فقط برای Googlebot قابل اجرا است و به آن میگوید که میتواند به یک پوشه زیرشاخه یا صفحه وب دسترسی پیدا کند، حتی زمانی که پوشه والد یا صفحه والد ممنوع است.
در مثال زیر، به تمام رباتها اجازه دسترسی به /scripts/folder را ندهید، به جز صفحه page.php:
Disallow: /scripts
Sitemap
با استفاده از دستور Sitemap در فایل robots.txt میتوانید به رباتهای موتورهای جستجو بگویید که نقشه سایت شما در کجا قرار دارد. برای مثال، اگر نقشه سایت شما در https://www.domain.com/sitemap.xml قرار دارد، با افزودن دستور زیر به فایل robots.txt این مسیر به موتورهای جستجو اطلاع داده میشود:
User-agent: * Disallow: /directory-name/ Sitemap: https://www.domain.com/sitemap.xml
استفاده از نقشه سایت XML به موتورهای جستجو کمک میکند تا صفحات سایت شما را به صورت موثرتری شناسایی کنند. با افزودن نقشه سایت به robots.txt، رباتهای موتورهای جستجو میتوانند به راحتی به فهرستی از تمامی صفحات سایت شما دسترسی پیدا کنند و از این رو بهبود در فرایند ایندکس شدن صفحات سایتتان ایجاد میشود.
خطوط اول متنی هستند که در فایل robots.txt برای تعیین قواعد درج میشوند. در اینجا، دو نوع کاراکتر وایلدکارد توضیح داده شدهاند:
User-agent: googlebot
Disallow: /*page
کاراکتر *: این کاراکتر میتواند برای تعیین قواعد در مورد بخشهایی از آدرس صفحات استفاده شود. برای مثال، در مثالی که ذکر شد، با استفاده از این کاراکتر، هر صفحهای که در آدرس آن کلمه “page” وجود داشته باشد، برای Googlebot غیر قابل دسترس خواهد بود.
*: User-agent
$Disallow: /*.pdf
کاراکتر $: این کاراکتر به رباتها میگوید که به دنبال هر آدرسی با هر پسوندی که با “pdf” ختم شود، نباید بگردند. به عنوان مثال، در مثالی که ذکر شد، تمامی فایلهای pdf در سایت را میتوان با استفاده از این کاراکتر غیر قابل دسترسی کرد.
*:User-agent
$Disallow: /*asp
این دو کاراکتر میتوانند با هم ترکیب شوند و برای تعیین قواعد allow و disallow در فایل robots.txt استفاده شوند. به عنوان مثال، در مثالی که ذکر شد، تمامی فایلهای asp در سایت را میتوان با استفاده از هر دو کاراکتر غیر قابل دسترسی کرد. با این حال، باید توجه داشت که در تعیین قواعد، باید دقت شود که قواعد مورد نظر دقیقاً با آدرس صفحات همخوانی داشته باشند.
Not Crawling یا Not Indexing
اگر نمیخواهید صفحهای در گوگل ایندکس شود، راهحلهای دیگری برای این کار وجود دارند که به جز فایل robots.txt هستند.
به عنوان مثال، اگر میخواهید از کرال شدن یک اسکریپت تقویم بینهایت جلوگیری کنید، از robots.txt استفاده کنید.
اما اگر میخواهید از این کنترل کنید که یک URL در گوگل ایندکس نشود، به جای فایل robots.txt از تگ robots meta یا X-Robots-Tag HTTP header استفاده کنید.
اگر میخواهید یک صفحه را از ایندکس گوگل کاملاً حذف کنید، باید از تگ noindex robots meta یا X-Robots-Tag HTTP header استفاده کنید و در این حالت نباید آن صفحه را در فایل robots.txt مسدود کنید.
به دلیل اینکه برای اطمینان از این که تگ های مربوط به ایندکس نشدن برای صفحه اعمال شود، باید گوگل آن صفحه را کرال کند.
در این حالت، ممکن است صفحهای که در robots.txt مسدود شدهاست، هنوز هم در نتایج جستجو ظاهر شود زیرا گوگل ممکن است براساس اطلاعات خارجی مانند لینکهای ورودی، تصمیم بگیرد که صفحه مربوطه مهم است یا نه.
از کدام روش برای مسدود کردن خزنده ها گوگل استفاده کنم؟
نکاتی برای ایجاد فایلrobots.txt بدون خطا
درست کردن فایل robots.txt برای مسدود کردن بات های خزنده موتورهای جستجو، بهتر است توجهات زیر را در نظر داشته باشید:
- دستورات case sensitive هستند. به عنوان مثال برای دستور Disallow باید “D” بزرگ باشد.
- همیشه پس از نقطهویرگول در دستورات، یک فاصله قرار دهید.
- برای مسدود کردن یک دایرکتوری کامل، قبل و بعد نام دایرکتوری باید یک علامت / قرار داده شود، به این شکل: /نام-دایرکتوری/.
- همه فایلهایی که به طور خاص مسدود نشدهاند، برای باتهای خزنده موتورهای جستجو شامل میشوند.
تستر فایل robots.txt
استفاده از فایل robots.txt یکی از مواردی است که در مدیریت بهینه سازی موتورهای جستجو بسیار مهم است. اما استفاده نادرست از این فایل میتواند به شما ضرر بزرگی وارد کند، مانند مسدود کردن صفحات مهم یا کل وب سایت. به همین دلیل بهتر است از ابزار تست کننده robots.txt گوگل استفاده کنید تا اطمینان حاصل کنید که فایل robots.txt شما به درستی پیکربندی شده است. شما میتوانید اطلاعات بیشتری در اینجا پیدا کنید.
راهنمای پروتکل حذف ربات ها
اگر به یادگیری عمیقتر از این مقاله نیاز دارید، راهنمای پروتکل حذف رباتها را دانلود کنید.
این یک PDF رایگان است که می توانید آن را ذخیره و برای مرجع چاپ کنید تا جزئیات زیادی در مورد نحوه ساخت robots.txt به شما ارائه دهد.
سخن پایانی
فایل robots.txt یک فایل ساده به نظر میرسد، اما این امکان را برای انتشار دهندگان وب سایتها فراهم میکند تا دستورات پیچیده ای در مورد اینکه چگونه میخواهند رباتها به وب سایت خود دسترسی داشته باشند، ارائه دهند. درست کردن این فایل بسیار مهم است، زیرا اگر نادرست باشد میتواند برنامه بهینه سازی موتور جستجوی شما را از بین ببرد.
زیرا تنوع بسیار زیادی در استفاده از فایل robots.txt وجود دارد، ابتدا مقدمات فایل robots.txt گوگل را بخوانید.
آیا مشکلاتی در مورد ایندکس شدن و سایر مسائل دیگر نیاز به تخصص SEO فنی دارید؟
اگر میخواهید یک مشاوره حرفه ای سئو و درخواست خدمات سئو بگیرید، امروز با ما تماس بگیرید.