چگونگی کنترل crawl کردن وب سایت توسط ربات های جستجو با استفاده از فایل robots.txt

هدف فایل robots.txt این است که به ربات های جستجو بگویند کدام فایل ها را باید index کنند و کدام فایل ها را خیر . اغلب برای فایل هایی استفاده می شود که نباید توسط ربات ها index شود .

اگر میخواهید به ربات های جستجو اجازه دهید که در وب سایت شما crawl کرده و کل محتوای وب سایت را مشاهده کنند ، شما می توانید دستور زیر را در robots.txt اضافه کنید:

User-agent: *
Disallow:

از طرف دیگر در صورتی که بخواهید این اجازه را به ربات های جستجو ندهید می توانید از دستور زیر استفاده کنید :

User-agent: *
Disallow: /

برای دستیابی به نتایج پیشرفته تر شما باید بخش های مختلف فایل robots.txt را درک کنید . “User-agent:” مشخص می کند که کدام ربات ها باید معتبر باشند . شما می توانید از علامت * به عنوان معتبر دانستن همه ی ربات ها استفاده کنید و یا اینکه نام ربات های مورد نظرتان را بنویسید .

قسمت “Disallow:” فایل ها و پوشه هایی که نباید توسط ربات ها index شوند را تعریف می کند . هرپوشه و فایل را در یک خط جدا تعریف می کنیم . به عنوان مثال دستورات زیر به این معنی هستند که همه ی ربات ها نباید بتوانند پوشه های “private” و “security” را در پوشه ی عمومی public_html شما index یا نمایه کنند.

User-agent: *
Disallow: /private
Disallow: /security

لطفا توجه داشته باشید که “Disallow:” از پوشه ی ریشه شما به عنوان یک دایرکتوری پایه استفاده می کند ، بنابراین مسیر فایل های شما به جای /home/user/public_html/sample.txt به شکل ساده به صورت /sample.txt نوشته شود.