تصور کنید صاحب یک کتابخانه بزرگ هستید. اگر بازرسان (ربات‌های گوگل) وارد شوند و وقتشان را صرف شمردن دستمال‌های کاغذی انبار کنند، فرصتی برای دیدن کتاب‌های ارزشمند و جدید شما نخواهند داشت. در دنیای وب، آموزش کامل robots.txt برای کنترل ربات‌های جستجو دقیقاً نقش همان راهنمایی را دارد که به بازرسان می‌گوید: “انبار را رها کنید، به قفسه کتاب‌های جدید بروید”. فایل robots.txt اولین نقطه‌ای است که ربات‌های خزنده قبل از ورود به سایت شما با آن ملاقات می‌کنند.
مدیریت صحیح این فایل نه تنها از بار اضافی روی سرور شما می‌کاهد، بلکه نقشی حیاتی در سئو فنی (Technical SEO) ایفا می‌کند. اشتباه در این فایل می‌تواند کل سایت شما را از نتایج گوگل حذف کند، و استفاده صحیح از آن می‌تواند سرعت ایندکس مطالب جدیدتان را چند برابر کند.
💡 فایل robots.txt چیست؟
یک فایل متنی ساده در ریشه (root) سایت که حاوی دستورالعمل‌هایی برای ربات‌های خزنده است تا بدانند کدام صفحات را می‌توانند بررسی کنند و کدام‌ها ممنوع هستند.
  • ✅ نکته کلیدی: این فایل برای جلوگیری از ایندکس شدن نیست، بلکه برای مدیریت ترافیک ربات‌هاست.
حتماً زمانی که این مقاله را باز کرده‌اید، به دنبال راهی هستید تا کنترل ربات‌های جستجو را در دست بگیرید و از هدر رفتن بودجه خزش سایت خود جلوگیری کنید. اگر می‌خواهید بدانید چگونه با چند خط کد ساده، سرنوشت سئوی سایتتان را تغییر دهید، این مقاله برای شماست. 😉👇
کنترل ربات‌های جستجو

فایل robots.txt چیست؟ و نحوه نوشتن آن چگونه است؟

برای شروع کنترل ربات‌های جستجو، ابتدا باید ماهیت این ابزار را بشناسیم. فایل robots.txt بخشی از پروتکل “Robots Exclusion Protocol” است. این فایل متنی باید دقیقاً در پوشه اصلی (Root Directory) هاست شما قرار بگیرد (مثلاً example.com/robots.txt). اگر آن را در پوشه‌ای دیگر بگذارید، ربات‌ها آن را پیدا نخواهند کرد.
عملکرد این فایل شبیه به نگهبانی است که لیست مهمانان مجاز و غیرمجاز را در دست دارد. وقتی رباتی مثل Googlebot به سایت شما می‌رسد، قبل از دانلود هر صفحه‌ای، ابتدا این فایل را چک می‌کند.
📝 نمودار فرآیند برخورد ربات با سایت:
Googlebot (ربات) 🕷️
       ⬇️
درخواست فایل robots.txt
       ⬇️
آیا فایل وجود دارد؟
├── ❌ خیر: ربات شروع به خزش (Crawl) تمام سایت می‌کند.
└── ✅ بله: ربات دستورات را می‌خواند.
       ⬇️
   [بررسی قوانین]
   ├── Allow: اجازه ورود ✅
   └── Disallow: ورود ممنوع ⛔

🔸 توجه داشته باشید که robots.txt نسبت به بزرگی و کوچکی حروف (Case Sensitive) حساس است. نام فایل باید دقیقاً با حروف کوچک نوشته شود.

بهینه‌سازی Crawl Budget با robots.txt

یکی از مهم‌ترین دلایل برای یادگیری آموزش کامل robots.txt برای کنترل ربات‌های جستجو، مدیریت مفهومی به نام “بودجه خزش” یا Crawl Budget است.
گوگل منابع نامحدودی ندارد؛ بنابراین برای هر سایت، زمان و تعداد مشخصی از صفحات را برای خزش در نظر می‌گیرد.
👈چرا بهینه‌سازی Crawl Budget با robots.txt حیاتی است؟
  • صرفه‌جویی در منابع: اگر سایت شما هزاران صفحه بی‌ارزش (مثل نتایج فیلتر محصولات، صفحات پرینت، یا پنل ادمین) داشته باشد و ربات‌ها آن‌ها را خزش کنند، ممکن است قبل از رسیدن به مقالات مهم یا محصولات جدید شما، سایت را ترک کنند.
  • کاهش بار سرور: کنترل ربات‌های جستجو باعث می‌شود درخواست‌های (Requests) کمتری به سرور ارسال شود که در نتیجه سرعت سایت برای کاربران واقعی افزایش می‌یابد.
  • ایندکس سریع‌تر: وقتی ربات‌ها در مسیرهای فرعی گم نشوند، محتوای اصلی سریع‌تر ایندکس می‌شود.

دستورات Disallow و Allow در robots.txt و نحوه استفاده

در این بخش، زبان صحبت با ربات‌ها را یاد می‌گیریم. برای کنترل ربات‌های جستجو، باید با سه دستور اصلی آشنا باشید. این دستورات ساده اما بسیار قدرتمند هستند.

1- User-agent (مخاطب دستور)

این خط مشخص می‌کند که دستورات زیر آن مربوط به کدام ربات است.
  • User-agent: * : یعنی این قانون برای همه ربات‌ها اعمال شود.
  • User-agent: Googlebot : یعنی این قانون فقط مخصوص ربات گوگل است.

2- Disallow (ممنوعیت)

این دستور به ربات می‌گوید که حق ندارد به مسیر مشخص شده وارد شود.
  • Disallow: /admin/ : یعنی ورود به پوشه ادمین ممنوع.
  • Disallow: / : یعنی ورود به کل سایت ممنوع (خطرناک!).

3- Allow (اجازه)

این دستور برای استثنا قائل شدن استفاده می‌شود. مثلاً وقتی یک پوشه را بسته‌اید اما می‌خواهید یک فایل خاص درون آن باز باشد.
📝مثال کاربردی:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
آموزش کامل robots.txt برای کنترل ربات‌های جستجو

آموزش عملی ساخت و ویرایش فایل (سناریو محور)

در این بخش همراه تیم وب‌داده باشید تا به صورت عملی و تصویری، کنترل crawl کردن وب سایت را با چند سناریوی واقعی تمرین کنیم.
1️⃣ سناریوی 1: سایت وردپرسی استاندارد
فرض کنید شما یک سایت وردپرسی دارید و می‌خواهید از سئو فنی و اهمیت فایل robots.txt برای بهبود رتبه خود استفاده کنید.
شما باید دسترسی به پوشه‌های مدیریت و پلاگین‌ها را محدود کنید، اما دسترسی به تصاویر و فایل‌های CSS/JS را باز بگذارید (چون گوگل برای رتبه‌بندی موبایل به آن‌ها نیاز دارد).
کد پیشنهادی:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /search/
Disallow: /wp-content/plugins/

Sitemap: [https://yourdomain.com/sitemap_index.xml](https://yourdomain.com/sitemap_index.xml)
سناریوی 2: سایت در حال توسعه (Staging)
سایت شما هنوز کامل نشده و روی یک ساب‌دامین تستی قرار دارد. نمی‌خواهید گوگل آن را ایندکس کند.
کد پیشنهادی:
User-agent: *
Disallow: /
📌 نکته: این دستور دقیقاً مثل کشیدن یک دیوار بتنی دور سایت است. هیچ رباتی وارد نخواهد شد. فراموش نکنید بعد از لانچ سایت، این خط را پاک کنید!
سناریوی 3: جلوگیری از خزش فایل‌های PDF
شما نمی‌خواهید فایل‌های PDF سایتتان توسط گوگل خوانده شوند تا کاربران مجبور شوند وارد صفحات سایت شوند.
کد پیشنهادی:
User-agent: *
Disallow: /*.pdf$

بلاک کردن ربات‌های هوش مصنوعی (AI Bots)؛ چالش جدید 2025

در سال 2025، یکی از دغدغه‌های اصلی مدیران سایت، استفاده بدون اجازه از محتوای آن‌ها برای آموزش مدل‌های هوش مصنوعی است. بسیاری از شرکت‌های بزرگ مانند OpenAI، Google و Anthropic ربات‌هایی دارند که محتوای وب را برای “آموزش” (Training) مدل‌های خود جمع‌آوری می‌کنند. اگر نمی‌خواهید محتوای شما خوراک این مدل‌ها شود، باید آن‌ها را صریحاً در فایل robots.txt مسدود کنید.
در ادامه لیست مهم‌ترین ربات‌هایی که باید آن‌ها را بشناسید و در صورت نیاز بلاک کنید آورده شده است:
  • GPTBot: ربات اصلی OpenAI برای جمع‌آوری داده‌های آموزشی ChatGPT.
  • ChatGPT-User: رباتی که وقتی کاربران ChatGPT لینک سایتی را باز می‌کنند، فعال می‌شود.
  • CCBot: ربات Common Crawl که دیتابیس عظیمی برای آموزش بسیاری از مدل‌های هوش مصنوعی می‌سازد.
  • Google-Extended: ربات گوگل برای جمع‌آوری داده جهت آموزش مدل‌های Gemini و Bard (جدا از جستجوی گوگل).
  • anthropic-ai: ربات شرکت Anthropic برای مدل Claude.
  • Bytespider: ربات شرکت ByteDance (تیک‌تاک).
کد کامل برای بلاک کردن ربات‌های AI:
# Block OpenAI (ChatGPT training data)
User-agent: GPTBot
Disallow: /

# Block ChatGPT user browsing
User-agent: ChatGPT-User
Disallow: /

# Block Common Crawl (Used by many AIs)
User-agent: CCBot
Disallow: /

# Block Anthropic (Claude AI)
User-agent: anthropic-ai
Disallow: /

# Block Google's AI Training (Gemini)
User-agent: Google-Extended
Disallow: /

# Block ByteDance (TikTok AI)
User-agent: Bytespider
Disallow: /
⚠️ هشدار: بلاک کردن Google-Extended باعث حذف سایت شما از نتایج جستجوی گوگل نمی‌شود؛ فقط از استفاده محتوا برای آموزش هوش مصنوعی گوگل جلوگیری می‌کند. اما بلاک کردن Googlebot باعث حذف کامل سایت از نتایج می‌شود.

تست و اعتبارسنجی فایل robots.txt در Search Console

نوشتن فایل یک چیز است و اطمینان از عملکرد صحیح آن چیز دیگر. یک اشتباه کوچک (مثل یک فاصله اضافه) می‌تواند کنترل ربات‌های جستجو را مختل کند. بهترین راه، استفاده از تست و اعتبارسنجی فایل robots.txt در Search Console است.
📝مراحل تست:
  1. وارد Google Search Console شوید.
  2. اگر دسترسی به ابزار قدیمی (Legacy Tools) دارید، گزینه Robots.txt Tester را پیدا کنید (یا از ابزارهای آنلاین معتبر استفاده کنید).
  3. آدرس یک صفحه از سایت را وارد کنید (مثلاً صفحه‌ای که Disallow کرده‌اید).
  4. دکمه Test را بزنید.
  5. اگر نوار قرمز شد و نوشت Blocked، یعنی دستورات شما به درستی کار می‌کنند.
کنترل ربات‌های جستجو
جدول مقایسه اشتباهات رایج:
دستور اشتباهنتیجه فاجعه‌باردستور صحیح
Disallow: /کل سایت از گوگل حذف می‌شودDisallow: /private-folder/
بلاک کردن CSS/JSگوگل سایت را زشت و بهم‌ریخته می‌بیندعدم استفاده از Disallow برای پوشه استایل‌ها
user-agent (تایپ غلط)دستورات نادیده گرفته می‌شوندUser-agent
استفاده از کاراکترهای فارسیفایل غیرقابل خواندن می‌شودفقط کاراکترهای استاندارد انگلیسی
svgexport 58 چگونگی کنترل crawl کردن وب سایت توسط ربات‌های جستجو با استفاده از فایل robots.txtسرور مجازی هلند
خرید سرور مجازی هلند وب‌داده با پورت 10Gbps 
کد تخفیف 100 هزار تومانی :
برای خرید اول ، یک بار مصرف

خدمات سرور مجازی وب‌داده

سرور مجازی وب‌داده؛ کنترل کامل در دستان شما
برای اینکه بتوانید کنترل crawl کردن وب سایت را به بهترین شکل انجام دهید، نیاز به دسترسی مستقیم به فایل‌های ریشه دارید. در هاست‌های اشتراکی محدود، گاهی اوقات دسترسی به ویرایش فایل‌های سیستمی دشوار است.
  • ✅ دسترسی Root: با خرید سرور مجازی وب‌داده، شما پادشاه سرور خود هستید و می‌توانید هر تنظیماتی را اعمال کنید.
  • ✅ سرعت بالا (NVMe): سرعت پاسخگویی سرورهای ما باعث می‌شود بودجه خزش شما هدر نرود (ربات‌ها عاشق سایت‌های سریع هستند).
  • ✅ پشتیبانی فنی: اگر در نوشتن کدهای robots.txt شک دارید، تیم فنی ما راهنمای شماست.

نتیجه‌گیری: کنترل crawl کردن وب سایت توسط ربات‌های جستجو

در پایان، یادگرفتیم که چگونگی کنترل crawl کردن وب سایت توسط ربات های جستجو با استفاده از فایل robots.txt نه تنها یک مهارت فنی، بلکه یک هنر مدیریتی است. این فایل متنی کوچک، دروازه‌بان بزرگ کسب‌وکار آنلاین شماست.
با استفاده صحیح از دستورات Disallow و Allow، شما می‌توانید کنترل ربات‌های جستجو را به دست بگیرید، در منابع سرور صرفه‌جویی کنید و مطمئن شوید که گوگل دقیقاً همان چیزی را می‌بیند که شما می‌خواهید. فقط به یاد داشته باشید: “قدرت زیاد، مسئولیت زیاد می‌آورد”. همیشه قبل از اعمال تغییرات نهایی، فایل خود را تست کنید.
در صورتی که سوالی درباره تنظیمات خاص یا ابهامی در مورد دستورات داشتید، می‌توانید در بخش نظرات با ما در ارتباط باشید. امیدوارم این مقاله از بلاگ وب‌داده برای شما مفید بوده باشد.

سوالات متداول از آموزش کامل robots.txt برای کنترل ربات‌های جستجو

1- آیا استفاده از robots.txt برای حذف سایت از گوگل کافی است؟

خیر. فایل robots.txt فقط به ربات می‌گوید “اینجا را نخوان”. اگر سایت شما از جای دیگری لینک شده باشد، ممکن است آدرس آن در نتایج گوگل ظاهر شود (بدون توضیحات). برای حذف کامل، باید از تگ noindex استفاده کنید.

نرسی مزداب
نرسی مزداب

من نویسنده و تولیدکننده محتوای تخصصی در حوزه هاستینگ هستم که با تمرکز بر کپی‌رایتینگ و ارائه آموزش‌های کاربردی، به ارتقای دانش و مهارت کاربران کمک می‌کنم. سال‌هاست که در زمینه هاستینگ و شبکه فعالیت می‌کنم و همواره تلاش دارم با به‌روزرسانی اطلاعات خود، بهترین و مفیدترین مطالب را برای مخاطبان ارائه دهم.

مقاله‌ها: 79
پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *