高效数据采集方案：快速部署与应用 AnyCrawl 网页爬虫工具实操指南-创客网

一、简介

AnyCrawl 提供高性能网页数据爬取，其功能专为 LLM 集成和数据处理而设计
支持利用搜索引擎直接查询获取结果内容，类似 searxng
提供开发者友好的API，支持动态内容抓取，并输出结构化数据，如markdown、网站元信息等
支持Docker一键快速部署，资源占用相对较低
项目开源，地址参考：https://github.com/any4ai/AnyCrawl
该项目大概工作原理如下图所示：

二、安装

提前准备好Docker、docker-compose软件环境

新建docker-compose.yml配置文件，内容如下（确保8080不被占用，如已被占用，请修改下面的端口映射配置）：

name: anycrawl
x-common-service: &common-service
  networks:
    - anycrawl-network
  volumes:
    - ./storage:/usr/src/app/storage
x-common-env: &common-env
  NODE_ENV: ${NODE_ENV:-production}
  ANYCRAWL_HEADLESS: ${ANYCRAWL_HEADLESS:-true}
  ANYCRAWL_PROXY_URL: ${ANYCRAWL_PROXY_URL:-}
  ANYCRAWL_IGNORE_SSL_ERROR: ${ANYCRAWL_IGNORE_SSL_ERROR:-true}
  ANYCRAWL_REDIS_URL: ${ANYCRAWL_REDIS_URL:-redis://redis:6379}
  ANYCRAWL_API_PORT: ${ANYCRAWL_API_PORT:-8080}
  ANYCRAWL_API_AUTH_ENABLED: ${ANYCRAWL_API_AUTH_ENABLED:-false}
  ANYCRAWL_API_DB_TYPE: "sqlite"
  ANYCRAWL_API_DB_CONNECTION: "/usr/src/app/db/database.db"
services:
  api:
    <<: *common-service
    image: ghcr.io/any4ai/anycrawl-api
    environment:
      <<: *common-env
    ports:
      - "8080:8080"
    volumes:
      - ./storage:/usr/src/app/storage
      - ./db:/usr/src/app/db
    depends_on:
      - redis
  scrape-puppeteer:
    <<: *common-service
    image: ghcr.io/any4ai/anycrawl-scrape-puppeteer
    environment:
      <<: *common-env
    depends_on:
      - redis
  scrape-playwright:
    <<: *common-service
    image: ghcr.io/any4ai/anycrawl-scrape-playwright
    environment:
      <<: *common-env
    depends_on:
      - redis
  scrape-cheerio:
    <<: *common-service
    image: ghcr.io/any4ai/anycrawl-scrape-cheerio
    environment:
      <<: *common-env
    depends_on:
      - redis
  redis:
    image: redis:7-alpine
    volumes:
      - redis-data:/data
    networks:
      - anycrawl-network
    command: redis-server --appendonly yes
volumes:
  redis-data:
networks:
  anycrawl-network:
    driver: bridge

一键启动，执行如下命令
```
docker-compose up -d
```
查看所有服务是否正常运行

三、使用示例

1. 爬取一篇文章内容，返回 LLM 友好的markdown内容

爬取网页接口：http://127.0.0.1:8080/v1/scrape
请求方法：POST

请求参数：

{
    "url": "https://blog.luler.top/d/55", //网页链接
    "engine": "playwright", //支持多种引擎，cheerio、puppeteer 、playwright，cheerio适合静态网页，puppeteer 、playwright适合动态网页
    "proxy": "http://127.0.0.1:10808" //支持设置代理，非必填
}

Postman请求示例截图如下：

2. 获取搜索引擎结果 (SERP)

爬取网页接口：http://127.0.0.1:8080/v1/search
请求方法：POST

请求参数：

{
    "query": "最新的AI资讯", //要搜索查询的内容
    "pages": 1, //分页
    "limit": 10, //限制返回数量
    "engine": "google", //指定搜索引擎，好像目前只有google
    "lang": "zh"  //指定查询的语言，例如en、zh、all
}

Postman请求示例截图如下：

四、总结

安装使用都挺方便的，性能较高，总体感觉比 Firecrawl 优雅好用
提供简易的搜索查询服务，可以获取到一些实时讯息，可以作为 LLM 联网能力组件

温馨提示： 本文最后更新于2025-09-30 16:07:08，某些文章具有时效性，若有错误或已失效，请在下方留言或联系在线客服。

文章版权声明 1 本网站名称： 创客网
2 本站永久网址：https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考，分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式，请大家不要盲目相信，被骗本站概不负责！
4 本网站只做项目揭秘，无法一对一教学指导，每篇文章内都含项目全套的教程讲解，请仔细阅读。
5 本站分享的所有平台仅供展示，本站不对平台真实性负责，站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差，所以有些项目红利期可能已经过了，能不能赚钱需要自己判断。
7 本网站仅做资源分享，不做任何收益保障，创业公司上收费几百上千的项目我免费分享出来的，希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享，并不代表本站立场，如不慎侵犯到您的版权利益，请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

THE END

创业经验项目思路

文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中

1网页元素自适应布局指南：告别缩放错位问题

209:03 妙洁灵巧型绒里手套天然如胶 1双中号砸5奍，叠加1首单【0.5】

318:38 领210-80券领1000-150卷 Plus领补贴券 M.A

409:55 瑞幸双杯9.9 页面按照步骤提交问卷即为参与通过审核后会发放1000个京豆基础奖励

500:41 88vip抵扣9折肖菲券叠抵5.34金币拍风干选项到手31亓 1号牧

619:46 20点美妆眇殺 1yuan眇殺 20点超级品牌日1yuan

热门广告位

高效数据采集方案：快速部署与应用 AnyCrawl 网页爬虫工具实操指南

一、简介

二、安装

三、使用示例

1. 爬取一篇文章内容，返回 LLM 友好的markdown内容

2. 获取搜索引擎结果 (SERP)

四、总结

请登录后发表评论

1网页元素自适应布局指南：告别缩放错位问题

209:03 妙洁灵巧型绒里手套 天然如胶 1双 中号 砸5奍，叠加1首单【0.5】

318:38 领210-80券 领1000-150卷 Plus领补贴券 M.A

409:55 瑞幸双杯9.9 页面 按照步骤提交问卷即为参与通过审核后会发放1000个京豆基础奖励

500:41 88vip抵扣9折肖菲券 叠抵5.34金币 拍风干选项 到手31亓 1号牧

619:46 20点美妆眇殺 1yuan眇殺 20点超级品牌日1yuan

热门广告位

高效数据采集方案：快速部署与应用 AnyCrawl 网页爬虫工具实操指南

一、简介

二、安装

三、使用示例

1. 爬取一篇文章内容，返回 LLM 友好的markdown内容

2. 获取搜索引擎结果 (SERP)

四、总结

请登录后发表评论

209:03 妙洁灵巧型绒里手套天然如胶 1双中号砸5奍，叠加1首单【0.5】

318:38 领210-80券领1000-150卷 Plus领补贴券 M.A

409:55 瑞幸双杯9.9 页面按照步骤提交问卷即为参与通过审核后会发放1000个京豆基础奖励

500:41 88vip抵扣9折肖菲券叠抵5.34金币拍风干选项到手31亓 1号牧