我们需要创建一个新的 Scrapy 项目。可以使用 Scrapy 提供的命令行工具快速创建一个新的项目:
scrapy startproject link_extractor
接下来,我们需要编写一个爬虫代码来抓取网站上的所有链接。Scrapy 提供 LinkExtractor
类,可以帮助我们快速提取页面上的链接。下面是一个示例代码:
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class LinkExtractorSpider(CrawlSpider):
name = 'link_extractor'
start_urls = ['https://www.example.com/']
rules = (
Rule(LinkExtractor(), callback='parse_item', follow=True),
)
def parse_item(self, response):
links = response.css('a::attr(href)').getall()
yield {'links': links}
我们可以运行爬虫来抓取网站上的所有链接。可以使用以下命令来启动爬虫:
scrapy crawl link_extractor
爬虫会自动遍历网站,并将找到的所有链接保存到输出文件中。