如何使用 Scrapy 获取网站上的所有链接

原创 www.link114.cn 2025-04-13 17:40:28

我们需要创建一个新的 Scrapy 项目。可以使用 Scrapy 提供的命令行工具快速创建一个新的项目:

scrapy startproject link_extractor

接下来,我们需要编写一个爬虫代码来抓取网站上的所有链接。Scrapy 提供 LinkExtractor 类,可以帮助我们快速提取页面上的链接。下面是一个示例代码:

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class LinkExtractorSpider(CrawlSpider):
    name = 'link_extractor'
    start_urls = ['https://www.example.com/']

    rules = (
        Rule(LinkExtractor(), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        links = response.css('a::attr(href)').getall()
        yield {'links': links}

我们可以运行爬虫来抓取网站上的所有链接。可以使用以下命令来启动爬虫: