robots.txt 文件应该放在网站的根目录下。文件内容由多行组成,每行包含一条指令。指令分为两部分:User-agent 和 Disallow。
User-agent 指定该指令适用于哪些搜索引擎爬虫,如 "User-agent: *" 表示适用于所有爬虫。Disallow 指定不允许爬虫访问的目录或文件路径。例如 "Disallow: /admin/" 表示不允许爬虫访问 /admin/ 目录。
robots.txt 文件是一个强大的网站优化工具,合理使用可以提高网站的搜索引擎友好性,保护网站隐私和敏感信息。但同时也要注意不要过度限制,影响搜索引擎的正常索引。