تصور کنید صاحب یک کتابخانه بزرگ هستید. اگر بازرسان (رباتهای گوگل) وارد شوند و وقتشان را صرف شمردن دستمالهای کاغذی انبار کنند، فرصتی برای دیدن کتابهای ارزشمند و جدید شما نخواهند داشت. در دنیای وب، آموزش کامل robots.txt برای کنترل رباتهای جستجو دقیقاً نقش همان راهنمایی را دارد که به بازرسان میگوید: “انبار را رها کنید، به قفسه کتابهای جدید بروید”. فایل robots.txt اولین نقطهای است که رباتهای خزنده قبل از ورود به سایت شما با آن ملاقات میکنند.
مدیریت صحیح این فایل نه تنها از بار اضافی روی سرور شما میکاهد، بلکه نقشی حیاتی در سئو فنی (Technical SEO) ایفا میکند. اشتباه در این فایل میتواند کل سایت شما را از نتایج گوگل حذف کند، و استفاده صحیح از آن میتواند سرعت ایندکس مطالب جدیدتان را چند برابر کند.
💡 فایل robots.txt چیست؟
یک فایل متنی ساده در ریشه (root) سایت که حاوی دستورالعملهایی برای رباتهای خزنده است تا بدانند کدام صفحات را میتوانند بررسی کنند و کدامها ممنوع هستند.
یک فایل متنی ساده در ریشه (root) سایت که حاوی دستورالعملهایی برای رباتهای خزنده است تا بدانند کدام صفحات را میتوانند بررسی کنند و کدامها ممنوع هستند.
- ✅ نکته کلیدی: این فایل برای جلوگیری از ایندکس شدن نیست، بلکه برای مدیریت ترافیک رباتهاست.
حتماً زمانی که این مقاله را باز کردهاید، به دنبال راهی هستید تا کنترل رباتهای جستجو را در دست بگیرید و از هدر رفتن بودجه خزش سایت خود جلوگیری کنید. اگر میخواهید بدانید چگونه با چند خط کد ساده، سرنوشت سئوی سایتتان را تغییر دهید، این مقاله برای شماست. 😉👇
آنچه در این مقاله میخوانید:

فایل robots.txt چیست؟ و نحوه نوشتن آن چگونه است؟
برای شروع کنترل رباتهای جستجو، ابتدا باید ماهیت این ابزار را بشناسیم. فایل
robots.txt بخشی از پروتکل “Robots Exclusion Protocol” است. این فایل متنی باید دقیقاً در پوشه اصلی (Root Directory) هاست شما قرار بگیرد (مثلاً example.com/robots.txt). اگر آن را در پوشهای دیگر بگذارید، رباتها آن را پیدا نخواهند کرد.عملکرد این فایل شبیه به نگهبانی است که لیست مهمانان مجاز و غیرمجاز را در دست دارد. وقتی رباتی مثل Googlebot به سایت شما میرسد، قبل از دانلود هر صفحهای، ابتدا این فایل را چک میکند.
📝 نمودار فرآیند برخورد ربات با سایت:
Googlebot (ربات) 🕷️
⬇️
درخواست فایل robots.txt
⬇️
آیا فایل وجود دارد؟
├── ❌ خیر: ربات شروع به خزش (Crawl) تمام سایت میکند.
└── ✅ بله: ربات دستورات را میخواند.
⬇️
[بررسی قوانین]
├── Allow: اجازه ورود ✅
└── Disallow: ورود ممنوع ⛔
🔸 توجه داشته باشید که robots.txt نسبت به بزرگی و کوچکی حروف (Case Sensitive) حساس است. نام فایل باید دقیقاً با حروف کوچک نوشته شود.
بهینهسازی Crawl Budget با robots.txt
یکی از مهمترین دلایل برای یادگیری آموزش کامل robots.txt برای کنترل رباتهای جستجو، مدیریت مفهومی به نام “بودجه خزش” یا Crawl Budget است.
گوگل منابع نامحدودی ندارد؛ بنابراین برای هر سایت، زمان و تعداد مشخصی از صفحات را برای خزش در نظر میگیرد.
👈چرا بهینهسازی Crawl Budget با robots.txt حیاتی است؟
- صرفهجویی در منابع: اگر سایت شما هزاران صفحه بیارزش (مثل نتایج فیلتر محصولات، صفحات پرینت، یا پنل ادمین) داشته باشد و رباتها آنها را خزش کنند، ممکن است قبل از رسیدن به مقالات مهم یا محصولات جدید شما، سایت را ترک کنند.
- کاهش بار سرور: کنترل رباتهای جستجو باعث میشود درخواستهای (Requests) کمتری به سرور ارسال شود که در نتیجه سرعت سایت برای کاربران واقعی افزایش مییابد.
- ایندکس سریعتر: وقتی رباتها در مسیرهای فرعی گم نشوند، محتوای اصلی سریعتر ایندکس میشود.
دستورات Disallow و Allow در robots.txt و نحوه استفاده
در این بخش، زبان صحبت با رباتها را یاد میگیریم. برای کنترل رباتهای جستجو، باید با سه دستور اصلی آشنا باشید. این دستورات ساده اما بسیار قدرتمند هستند.
1- User-agent (مخاطب دستور)
این خط مشخص میکند که دستورات زیر آن مربوط به کدام ربات است.
User-agent: *: یعنی این قانون برای همه رباتها اعمال شود.User-agent: Googlebot: یعنی این قانون فقط مخصوص ربات گوگل است.
2- Disallow (ممنوعیت)
این دستور به ربات میگوید که حق ندارد به مسیر مشخص شده وارد شود.
Disallow: /admin/: یعنی ورود به پوشه ادمین ممنوع.Disallow: /: یعنی ورود به کل سایت ممنوع (خطرناک!).
3- Allow (اجازه)
این دستور برای استثنا قائل شدن استفاده میشود. مثلاً وقتی یک پوشه را بستهاید اما میخواهید یک فایل خاص درون آن باز باشد.
📝مثال کاربردی:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php 
آموزش عملی ساخت و ویرایش فایل (سناریو محور)
در این بخش همراه تیم وبداده باشید تا به صورت عملی و تصویری، کنترل crawl کردن وب سایت را با چند سناریوی واقعی تمرین کنیم.
1️⃣ سناریوی 1: سایت وردپرسی استاندارد
فرض کنید شما یک سایت وردپرسی دارید و میخواهید از سئو فنی و اهمیت فایل robots.txt برای بهبود رتبه خود استفاده کنید.
شما باید دسترسی به پوشههای مدیریت و پلاگینها را محدود کنید، اما دسترسی به تصاویر و فایلهای CSS/JS را باز بگذارید (چون گوگل برای رتبهبندی موبایل به آنها نیاز دارد).
کد پیشنهادی:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /search/
Disallow: /wp-content/plugins/
Sitemap: [https://yourdomain.com/sitemap_index.xml](https://yourdomain.com/sitemap_index.xml) سناریوی 2: سایت در حال توسعه (Staging)
سایت شما هنوز کامل نشده و روی یک سابدامین تستی قرار دارد. نمیخواهید گوگل آن را ایندکس کند.
کد پیشنهادی:
User-agent: *
Disallow: / 📌 نکته: این دستور دقیقاً مثل کشیدن یک دیوار بتنی دور سایت است. هیچ رباتی وارد نخواهد شد. فراموش نکنید بعد از لانچ سایت، این خط را پاک کنید!
سناریوی 3: جلوگیری از خزش فایلهای PDF
شما نمیخواهید فایلهای PDF سایتتان توسط گوگل خوانده شوند تا کاربران مجبور شوند وارد صفحات سایت شوند.
کد پیشنهادی:
User-agent: *
Disallow: /*.pdf$ بلاک کردن رباتهای هوش مصنوعی (AI Bots)؛ چالش جدید 2025
در سال 2025، یکی از دغدغههای اصلی مدیران سایت، استفاده بدون اجازه از محتوای آنها برای آموزش مدلهای هوش مصنوعی است. بسیاری از شرکتهای بزرگ مانند OpenAI، Google و Anthropic رباتهایی دارند که محتوای وب را برای “آموزش” (Training) مدلهای خود جمعآوری میکنند. اگر نمیخواهید محتوای شما خوراک این مدلها شود، باید آنها را صریحاً در فایل
robots.txt مسدود کنید.در ادامه لیست مهمترین رباتهایی که باید آنها را بشناسید و در صورت نیاز بلاک کنید آورده شده است:
- GPTBot: ربات اصلی OpenAI برای جمعآوری دادههای آموزشی ChatGPT.
- ChatGPT-User: رباتی که وقتی کاربران ChatGPT لینک سایتی را باز میکنند، فعال میشود.
- CCBot: ربات Common Crawl که دیتابیس عظیمی برای آموزش بسیاری از مدلهای هوش مصنوعی میسازد.
- Google-Extended: ربات گوگل برای جمعآوری داده جهت آموزش مدلهای Gemini و Bard (جدا از جستجوی گوگل).
- anthropic-ai: ربات شرکت Anthropic برای مدل Claude.
- Bytespider: ربات شرکت ByteDance (تیکتاک).
کد کامل برای بلاک کردن رباتهای AI:
# Block OpenAI (ChatGPT training data)
User-agent: GPTBot
Disallow: /
# Block ChatGPT user browsing
User-agent: ChatGPT-User
Disallow: /
# Block Common Crawl (Used by many AIs)
User-agent: CCBot
Disallow: /
# Block Anthropic (Claude AI)
User-agent: anthropic-ai
Disallow: /
# Block Google's AI Training (Gemini)
User-agent: Google-Extended
Disallow: /
# Block ByteDance (TikTok AI)
User-agent: Bytespider
Disallow: / ⚠️ هشدار: بلاک کردن
Google-Extended باعث حذف سایت شما از نتایج جستجوی گوگل نمیشود؛ فقط از استفاده محتوا برای آموزش هوش مصنوعی گوگل جلوگیری میکند. اما بلاک کردن Googlebot باعث حذف کامل سایت از نتایج میشود.تست و اعتبارسنجی فایل robots.txt در Search Console
نوشتن فایل یک چیز است و اطمینان از عملکرد صحیح آن چیز دیگر. یک اشتباه کوچک (مثل یک فاصله اضافه) میتواند کنترل رباتهای جستجو را مختل کند. بهترین راه، استفاده از تست و اعتبارسنجی فایل robots.txt در Search Console است.
📝مراحل تست:
- وارد Google Search Console شوید.
- اگر دسترسی به ابزار قدیمی (Legacy Tools) دارید، گزینه
Robots.txt Testerرا پیدا کنید (یا از ابزارهای آنلاین معتبر استفاده کنید). - آدرس یک صفحه از سایت را وارد کنید (مثلاً صفحهای که Disallow کردهاید).
- دکمه Test را بزنید.
- اگر نوار قرمز شد و نوشت
Blocked، یعنی دستورات شما به درستی کار میکنند.

جدول مقایسه اشتباهات رایج:
| دستور اشتباه | نتیجه فاجعهبار | دستور صحیح |
|---|---|---|
Disallow: / | کل سایت از گوگل حذف میشود | Disallow: /private-folder/ |
| بلاک کردن CSS/JS | گوگل سایت را زشت و بهمریخته میبیند | عدم استفاده از Disallow برای پوشه استایلها |
user-agent (تایپ غلط) | دستورات نادیده گرفته میشوند | User-agent |
| استفاده از کاراکترهای فارسی | فایل غیرقابل خواندن میشود | فقط کاراکترهای استاندارد انگلیسی |
خرید سرور مجازی هلند وبداده با پورت 10Gbps
کد تخفیف 100 هزار تومانی :
برای خرید اول ، یک بار مصرف
خدمات سرور مجازی وبداده
سرور مجازی وبداده؛ کنترل کامل در دستان شما
برای اینکه بتوانید کنترل crawl کردن وب سایت را به بهترین شکل انجام دهید، نیاز به دسترسی مستقیم به فایلهای ریشه دارید. در هاستهای اشتراکی محدود، گاهی اوقات دسترسی به ویرایش فایلهای سیستمی دشوار است.
- ✅ دسترسی Root: با خرید سرور مجازی وبداده، شما پادشاه سرور خود هستید و میتوانید هر تنظیماتی را اعمال کنید.
- ✅ سرعت بالا (NVMe): سرعت پاسخگویی سرورهای ما باعث میشود بودجه خزش شما هدر نرود (رباتها عاشق سایتهای سریع هستند).
- ✅ پشتیبانی فنی: اگر در نوشتن کدهای robots.txt شک دارید، تیم فنی ما راهنمای شماست.
نتیجهگیری: کنترل crawl کردن وب سایت توسط رباتهای جستجو
در پایان، یادگرفتیم که چگونگی کنترل crawl کردن وب سایت توسط ربات های جستجو با استفاده از فایل robots.txt نه تنها یک مهارت فنی، بلکه یک هنر مدیریتی است. این فایل متنی کوچک، دروازهبان بزرگ کسبوکار آنلاین شماست.
با استفاده صحیح از دستورات
Disallow و Allow، شما میتوانید کنترل رباتهای جستجو را به دست بگیرید، در منابع سرور صرفهجویی کنید و مطمئن شوید که گوگل دقیقاً همان چیزی را میبیند که شما میخواهید. فقط به یاد داشته باشید: “قدرت زیاد، مسئولیت زیاد میآورد”. همیشه قبل از اعمال تغییرات نهایی، فایل خود را تست کنید.در صورتی که سوالی درباره تنظیمات خاص یا ابهامی در مورد دستورات داشتید، میتوانید در بخش نظرات با ما در ارتباط باشید. امیدوارم این مقاله از بلاگ وبداده برای شما مفید بوده باشد.
سوالات متداول از آموزش کامل robots.txt برای کنترل رباتهای جستجو
1- آیا استفاده از robots.txt برای حذف سایت از گوگل کافی است؟
خیر. فایل robots.txt فقط به ربات میگوید “اینجا را نخوان”. اگر سایت شما از جای دیگری لینک شده باشد، ممکن است آدرس آن در نتایج گوگل ظاهر شود (بدون توضیحات). برای حذف کامل، باید از تگ noindex استفاده کنید.





