فایل robots.txt چیست؟

آنچه در این مطلب خواهید آموخت

فایل robots.txt یکی از عوامل مهم بهینه‌سازی موتورهای جستجو است که اگر به درستی انجام نشود، ممکن است برای سئوی سایتتان مشکلاتی ایجاد کند.

در این مقاله، من به شما توضیح خواهم داد که چرا هر وبسایتی نیاز به فایل robots.txt دارد و چگونه آن را ایجاد کنید (بدون اینکه مشکلی برای سئو ایجاد شود).

در این مقاله، پاسخ به سؤالات متداول را خواهم داد و نمونه‌هایی از چگونگی اجرای آن را برای وبسایت شما ارائه خواهم داد.

همچنین، یک راهنمای قابل دانلود را نیز برای شما فراهم خواهم کرد که جزئیات کامل را پوشش می‌دهد.

robots.txt چیست؟

فایل robots.txt یک فایل متنی است که توسط ناشران وبسایت در ریشه وبسایت خود ایجاد و ذخیره می‌شود. هدف این فایل اطلاع دادن به ربات‌های وبی که به صورت خودکار وب‌گردی می‌کنند، مانند ربات‌های موتورهای جستجو، از صفحاتی است که نباید در وبسایت شما به دنبال شوند. این مسئله همچنین به عنوان پروتکل محرومیت ربات‌ها شناخته می‌شود.

باید به این نکته توجه داشت که فایل robots.txt تضمین کننده این نیست که آدرس‌هایی که از جستجو منع شده‌اند، به هیچ وجه در نتایج جستجو قرار نگیرند. به این دلیل که ربات‌های موتورهای جستجو ممکن است به وسیله‌ی صفحات دیگری که به این صفحات لینک داده‌اند، به وجود آنها پی ببرند. همچنین، این صفحات ممکن است هنوز از گذشته در نتایج جستجوی موتورهای جستجو ثبت شده باشند.

همچنین، فایل robots.txt هیچگونه تضمینی برای اینکه ربات‌های موتورهای جستجو صفحاتی که از جستجو منع شده‌اند را نگاه نکنند، فراهم نمی‌کند، زیرا این یک سیستم داوطلبانه است. به طور کلی، بزرگترین ربات‌های موتورهای جستجو به دستورات شما توجه می‌کنند، اما ربات‌های بد، مانند اسپم بات، مالور و اسپای ور، اغلب دستورات را رعایت نمی‌کنند.

لطفا به خاطر داشته باشید که فایل robots.txt به صورت عمومی قابل دسترس است. شما می‌توانید با اضافه کردن /robots.txt به پایان URL دامنه، فایل robots.txt آن را ببینید (مانند فایل robots

چرا فایل robots.txt مهم است؟

فایل robots.txt، یک فایل متنی است که صاحبان وب‌سایت آن را در ریشه وب‌سایت خود ایجاد و ذخیره می‌کنند. هدف این فایل، اطلاع دادن به ربات‌های وب خودکار مانند ربات‌های موتورهای جستجو که از کدام صفحات بر روی وب‌سایت باید پرش کنند. این عمل به عنوان پروتکل محرومیت ربات ها نیز شناخته می‌شود.

اما این فایل قطعی نمی‌کند که صفحاتی که از پرش آن‌ها خودداری شده است، در جستجوی گوگل شناسایی نشوند. این اتفاق ممکن است به دلیل لینک شدن صفحات موجود در وب‌سایت با صفحات محروم شده، یا به دلیل قبلی بودن این صفحات در نتایج جستجوی گذشته رخ دهد. همچنین این فایل هیچ گونه ضمانتی برای این ندارد که ربات‌های وب، صفحات محروم شده را پرش نکنند. این یک سیستم داوولونتری است که در برابر ربات‌های بدی مانند اسپم بات‌ها، نرم‌افزارهای خبیث و جاسوسی اعمال نمی‌شود.

نکته‌ی حائز اهمیتی که باید به آن توجه داشت، این است که فایل robots.txt عمومی است و به راحتی قابل دسترسی است. شما می‌توانید با افزودن /robots.txt به پایان آدرس وب‌سایت، فایل robots.txt آن را مشاهده کنید. بنابراین، هیچ فایل یا پوشه‌ای که اطلاعات حیاتی شما را شامل می‌شود، در این فایل قرار ندهد. همچنین برای محافظت از اطلاعات حساس یا خصوصی خود در برابر موتورهای جستجو، به فایل robots.txt اتکا نکنید.

البته برنامه های robots.txt زیادی وجود دارد و من در این مقاله بیشتر آنها را توضیح خواهم داد.

آیا وجود فایل robots.txt ضروری است؟

بله، هر وب سایتی باید یک فایل robots.txt داشته باشد، حتی اگر خالی باشد. وقتی بات‌های موتورهای جستجو به وب سایت شما می‌آیند، اولین چیزی که به دنبال آن هستند، فایل robots.txt است.

اگر چنین فایلی وجود نداشته باشد، اسپایدرهای موتور جستجو به خطای 404 (پیدا نشد) برمی‌خورند. گوگل می‌گوید که Googlebot می‌تواند به وب سایت بروید و آن را کراول کند حتی اگر فایل robots.txt وجود نداشته باشد، اما ما فکر می‌کنیم بهتر است که اولین فایلی که یک بات درخواست می‌کند، بارگذاری شود تا خطای 404 تولید نشود.

چه مشکلاتی می تواند با فایل robots.txt پیش بیاید؟

فایل کوچک robots.txt می‌تواند در صورت عدم دقت، مشکلاتی را برای بهینه‌سازی موتورهای جستجو ایجاد کند. در زیر دو شرایطی را برای این فایل بررسی می‌کنیم که بهتر است به آن‌ها توجه کنید:

1. مسدود کردن کل سایت به صورت تصادفی

یکی از مشکلاتی که ممکن است با robots.txt روبرو شوید، بلاک کردن کل سایت به صورت اتفاقی است. این مشکل بیشتر از آن چیزی است که شما فکر می کنید رخ می دهد. برنامه نویسان می توانند از robots.txt برای مخفی کردن بخشی از سایت در طول فرآیند توسعه استفاده کنند، اما پس از راه اندازی آن را فراموش می کنند. اگر سایتی وجود دارد، این اشتباه می تواند باعث کاهش ناگهانی رتبه سایت در موتورهای جستجو شود.

حالتی که ممکن است در حین آماده سازی سایت یا بخشی از آن برای راه اندازی جدید، کار با robots.txt بسیار مفید است. اما به یاد داشته باشید که در هنگام راه اندازی سایت، این فایل را باز کنید و دستورات آن را به روز رسانی کنید.

2. به استثنای صفحاتی که قبلاً ایندکس شده اند

این به این معنی است که در صورتی که شما صفحاتی که در حال حاضر در ایندکس موتورهای جستجو هستند را در فایل robots.txt خود از جستجو منع کنید، این صفحات همچنان در ایندکس موتورهای جستجو باقی خواهند ماند و از آنها حمایت می کند.

اگر صفحاتی را که قبلاً در نتایج جستجوی گوگل ایندکس شده‌اند، در فایل robots.txt بلاک کنید، این باعث می‌شود که آن‌ها در نتایج جستجوی گوگل به محض حذف فایل robots.txt، دوباره نمایش داده شوند و به نوعی به دام افتاده باشند.

برای حذف یک صفحه از نتایج جستجوی گوگل باید از برچسب meta robots با مقدار “noindex” بر روی آن صفحه استفاده کنید و سپس به گوگل اجازه دهید آن را ایندکس نکند. به عبارت دیگر، از قرار دادن آدرس این صفحات در فایل robots.txt برای حذف آن‌ها از نتایج جستجو استفاده نکنید.

فایل robots.txt چگونه کار می کند؟

برای ایجاد فایل robots.txt می‌توانید از یک برنامه ساده مانند Notepad یا TextEdit استفاده کنید. آن را با نام robots.txt ذخیره کرده و در ریشه وب سایت خود به آدرس www.domain.com/robots.txt آپلود کنید – اینجاست که اسپایدرها به دنبال آن می‌گردند.

یک فایل ساده robots.txt می‌تواند به شکل زیر باشد:

User-agent: *
Disallow: /directory-name/

گوگل در راهنمایی خود درباره ایجاد فایل robots.txt به خوبی توضیح می‌دهد که هر خط دستوری در یک گروه، یک دستور راهنما (دستور العمل) را شامل می‌شود.

هر گروه شامل اطلاعات زیر است:

کدام User-agent این گروه را اعمال می‌کند؟ (user-agent)
کدام فایل‌ها یا دایرکتوری‌ها به این عامل (از نوع User-agent) اجازه دسترسی دارد؟
کدام فایل‌ها یا دایرکتوری‌ها به این عامل (از نوع User-agent) اجازه دسترسی ندارد؟

دستورات مختلفی که در فایل robots.txt وجود دارند در ادامه توضیح داده خواهند شد.

دستورات متداول در فایل robots.txt عبارتند از:

User-agent

دستور User-agent به رباتیک اشاره دارد که در آن دستورات را اعمال می‌کنید (به عنوان مثال، Googlebot یا Bingbot). شما می‌توانید برای ربات‌های مختلف، دستورات مختلفی را تعریف کنید. با استفاده از نشانه * (همانطور که در بخش قبل نشان داده شد)، شما می‌توانید تمام ربات‌ها را شامل شوید. شما می‌توانید لیستی از ربات‌های مختلف را در اینجا مشاهده کنید.

Disallow

دستور Disallow مشخص می‌کند که کدام پوشه، فایل یا حتی کل دایرکتوری از دسترس ربات‌های وب باید محروم شود. به عنوان مثال:

اجازه دهید ربات‌ها به تمام وب‌سایت دسترسی پیدا کنند:
*:User-agent
:Disallow

اجازه ندهید ربات‌ها به تمام وب‌سایت دسترسی پیدا کنند:
*: User-agent
/:Disallow

اجازه ندهید ربات‌ها به “/myfolder/” و تمام زیردایرکتوری‌های آن دسترسی پیدا کنند:

*:User-agent
/Disallow:/myfolder

اجازه ندهید ربات‌ها به هر فایلی که با “myfile.html” شروع می‌شود دسترسی پیدا کنند:

*:User-agent
Disallow: /myfile.html

اجازه ندهید Googlebot به فایل‌ها و پوشه‌هایی که با “my” شروع می‌شوند دسترسی پیدا کند:

User-agent: googlebot
Disallow: /my

Allow

این دستور فقط برای Googlebot قابل اجرا است و به آن می‌گوید که می‌تواند به یک پوشه زیرشاخه یا صفحه وب دسترسی پیدا کند، حتی زمانی که پوشه والد یا صفحه والد ممنوع است.

در مثال زیر، به تمام ربات‌ها اجازه دسترسی به /scripts/folder را ندهید، به جز صفحه page.php:

Disallow: /scripts

Sitemap

با استفاده از دستور Sitemap در فایل robots.txt می‌توانید به ربات‌های موتورهای جستجو بگویید که نقشه سایت شما در کجا قرار دارد. برای مثال، اگر نقشه سایت شما در https://www.domain.com/sitemap.xml قرار دارد، با افزودن دستور زیر به فایل robots.txt این مسیر به موتورهای جستجو اطلاع داده می‌شود:

User-agent: * Disallow: /directory-name/ Sitemap: https://www.domain.com/sitemap.xml

استفاده از نقشه سایت XML به موتورهای جستجو کمک می‌کند تا صفحات سایت شما را به صورت موثرتری شناسایی کنند. با افزودن نقشه سایت به robots.txt، ربات‌های موتورهای جستجو می‌توانند به راحتی به فهرستی از تمامی صفحات سایت شما دسترسی پیدا کنند و از این رو بهبود در فرایند ایندکس شدن صفحات سایتتان ایجاد می‌شود.

خطوط اول متنی هستند که در فایل robots.txt برای تعیین قواعد درج می‌شوند. در اینجا، دو نوع کاراکتر وایلدکارد توضیح داده شده‌اند:

User-agent: googlebot
Disallow: /*page

کاراکتر *: این کاراکتر می‌تواند برای تعیین قواعد در مورد بخش‌هایی از آدرس صفحات استفاده شود. برای مثال، در مثالی که ذکر شد، با استفاده از این کاراکتر، هر صفحه‌ای که در آدرس آن کلمه “page” وجود داشته باشد، برای Googlebot غیر قابل دسترس خواهد بود.

*: User-agent
$Disallow: /*.pdf

کاراکتر $: این کاراکتر به ربات‌ها می‌گوید که به دنبال هر آدرسی با هر پسوندی که با “pdf” ختم شود، نباید بگردند. به عنوان مثال، در مثالی که ذکر شد، تمامی فایل‌های pdf در سایت را می‌توان با استفاده از این کاراکتر غیر قابل دسترسی کرد.

*:User-agent
$Disallow: /*asp

این دو کاراکتر می‌توانند با هم ترکیب شوند و برای تعیین قواعد allow و disallow در فایل robots.txt استفاده شوند. به عنوان مثال، در مثالی که ذکر شد، تمامی فایل‌های asp در سایت را می‌توان با استفاده از هر دو کاراکتر غیر قابل دسترسی کرد. با این حال، باید توجه داشت که در تعیین قواعد، باید دقت شود که قواعد مورد نظر دقیقاً با آدرس صفحات همخوانی داشته باشند.

Not Crawling یا Not Indexing

اگر نمی‌خواهید صفحه‌ای در گوگل ایندکس شود، راه‌حل‌های دیگری برای این کار وجود دارند که به جز فایل robots.txt هستند.

به عنوان مثال، اگر می‌خواهید از کرال شدن یک اسکریپت تقویم بی‌نهایت جلوگیری کنید، از robots.txt استفاده کنید.

اما اگر می‌خواهید از این کنترل کنید که یک URL در گوگل ایندکس نشود، به جای فایل robots.txt از تگ robots meta یا X-Robots-Tag HTTP header استفاده کنید.
اگر می‌خواهید یک صفحه را از ایندکس گوگل کاملاً حذف کنید، باید از تگ noindex robots meta یا X-Robots-Tag HTTP header استفاده کنید و در این حالت نباید آن صفحه را در فایل robots.txt مسدود کنید.

به دلیل اینکه برای اطمینان از این که تگ های مربوط به ایندکس نشدن برای صفحه اعمال شود، باید گوگل آن صفحه را کرال کند.

در این حالت، ممکن است صفحه‌ای که در robots.txt مسدود شده‌است، هنوز هم در نتایج جستجو ظاهر شود زیرا گوگل ممکن است براساس اطلاعات خارجی مانند لینک‌های ورودی، تصمیم بگیرد که صفحه مربوطه مهم است یا نه.

از کدام روش برای مسدود کردن خزنده ها گوگل استفاده کنم؟

اگر خزنده ها برای شما مشکل ساز شده اند، می توانید از فایل robots.txt استفاده کنید. اما اگر می خواهید اطمینان حاصل کنید که یک URL در نتایج جستجوی گوگل نمایش داده نشود، باید از تگ meta robots یا هدر X-Robots-Tag استفاده کنید.

همچنین برای کنترل نمایش صفحات در نتایج جستجو، می توانید از تگ meta robots استفاده کنید و برای کنترل نمایش محتوای غیر-HTML در نتایج جستجو، باید از هدر X-Robots-Tag استفاده کنید.

لازم به ذکر است که اگر صفحه ای را با استفاده از فایل robots.txt مسدود کنید، این به این معنی نیست که گوگل صفحه را در نتایج جستجو نمایش نمی دهد، چون با توجه به اطلاعات خارجی مانند لینک های ورودی، گوگل ممکن است قضاوت کند که صفحه مورد نظر مرتبط است.

برای اطمینان از این که یک صفحه از نتایج جستجو حذف شود، بهتر است از تگ noindex در تگ meta robots یا هدر X-Robots-Tag استفاده کنید.

در این حالت، بهتر است صفحه را در فایل robots.txt مسدود نکنید، چون برای رعایت این دستورالعمل باید خزنده ها ابتدا صفحه را دریافت و سپس دستورات تگ را پردازش کنند.

نکاتی برای ایجاد فایلrobots.txt بدون خطا

درست کردن فایل robots.txt برای مسدود کردن بات های خزنده موتورهای جستجو، بهتر است توجهات زیر را در نظر داشته باشید:

دستورات case sensitive هستند. به عنوان مثال برای دستور Disallow باید “D” بزرگ باشد.
همیشه پس از نقطه‌ویرگول در دستورات، یک فاصله قرار دهید.
برای مسدود کردن یک دایرکتوری کامل، قبل و بعد نام دایرکتوری باید یک علامت / قرار داده شود، به این شکل: /نام-دایرکتوری/.
همه فایل‌هایی که به طور خاص مسدود نشده‌اند، برای بات‌های خزنده موتورهای جستجو شامل می‌شوند.

تستر فایل robots.txt

استفاده از فایل robots.txt یکی از مواردی است که در مدیریت بهینه سازی موتورهای جستجو بسیار مهم است. اما استفاده نادرست از این فایل می‌تواند به شما ضرر بزرگی وارد کند، مانند مسدود کردن صفحات مهم یا کل وب سایت. به همین دلیل بهتر است از ابزار تست کننده robots.txt گوگل استفاده کنید تا اطمینان حاصل کنید که فایل robots.txt شما به درستی پیکربندی شده است. شما می‌توانید اطلاعات بیشتری در اینجا پیدا کنید.

راهنمای پروتکل حذف ربات ها

اگر به یادگیری عمیق‌تر از این مقاله نیاز دارید، راهنمای پروتکل حذف ربات‌ها را دانلود کنید.

این یک PDF رایگان است که می توانید آن را ذخیره و برای مرجع چاپ کنید تا جزئیات زیادی در مورد نحوه ساخت robots.txt به شما ارائه دهد.

سخن پایانی

فایل robots.txt یک فایل ساده به نظر می‌رسد، اما این امکان را برای انتشار دهندگان وب سایت‌ها فراهم می‌کند تا دستورات پیچیده ای در مورد اینکه چگونه می‌خواهند ربات‌ها به وب سایت خود دسترسی داشته باشند، ارائه دهند. درست کردن این فایل بسیار مهم است، زیرا اگر نادرست باشد می‌تواند برنامه بهینه سازی موتور جستجوی شما را از بین ببرد.

زیرا تنوع بسیار زیادی در استفاده از فایل robots.txt وجود دارد، ابتدا مقدمات فایل robots.txt گوگل را بخوانید.

آیا مشکلاتی در مورد ایندکس شدن و سایر مسائل دیگر نیاز به تخصص SEO فنی دارید؟

اگر می‌خواهید یک مشاوره حرفه ای سئو و درخواست خدمات سئو بگیرید، امروز با ما تماس بگیرید.

نویسنده

محمد

درود بر شما محمد اصلانی هستم عاشق دنیای وب ، بنده 12 سال است که در دنیای مجازی فعالیت میکنم و حدودا در80 درصد مباحث مرتبط با تجارت الکترونیک تجربه کسب کرده ام. طراح و مشاور راه اندازی و توسعه کسب و کار اینترنتی هستم حدود 10 سال است که به صورت حرفه ای در زمینه سئو فعالیت میکنم و 8 سالی هست که به طراحی سایت های وردپرسی فروشگاهی ، شرکتی ، شخصی، پزشکی مشغول هستم

فایل robots.txt چیست؟

robots.txt چیست؟