网站归档开源利器：用 sitefetch 实现全站递归爬取并保存为一个 Markdown 格式文本文件-创客网

一、简介

一键递归爬取整个网站并将其保存为一个Markdown格式文本文件
支持路径匹配、内容筛选，并且默认支持多线程并发抓取内容
开源地址参考：https://github.com/egoist/sitefetch
以下是大致的系统结构与工作原理图：

二、安装

提前安装好node 18+、npm、npx等软件环境（这里不做赘述）
使用npm全局安装
```
npm i -g sitefetch
```
使用npx直接运行
```
npx sitefetch
```
其他不常用方式，类似上面，这里不做介绍，有需要自行参考开源代码页面说明

三、使用示例

命令使用范例参考

//抓取face-recognition的使用文档，并把内容保存到face-recognition.txt文件，默认开启3个并发处理
sitefetch https://face-recognition.readthedocs.io/en/latest -o face-recognition.txt
//指定并发数量为10
sitefetch https://face-recognition.readthedocs.io/en/latest -o face-recognition.txt --concurrency 10
//指定获取那些页面的路径，如下
sitefetch https://face-recognition.readthedocs.io/en/latest -m "/en/**" -o face-recognition.txt
//指定获取页面中CSS选择器中的内容（页面中有些内容是框架固定内容，不是我们想要的，我们只需要页面中某个区域的内容，这个时候有必要指定）
sitefetch https://face-recognition.readthedocs.io/en/latest --content-selector ".document"

命令执行截图
抓取到的内容，参考下面截图（该内容特别适合投喂给AI，建立RAG知识库等）
快速使用这个文件建立本地RAG知识库，可以参考文章：https://blog.luler.top/d/30

四、总结

这是一个非常有用的生产力小工具，递归抓取、markdown解析这些功能在建立RAG知识库需求中非常刚需
部分场景不适用，如不能自动分页（只是基于内容中存在的链接做深度挖掘），不能抓取动态渲染内容
代码是开源，提供API接入，也可以fork过来做扩展与调整

温馨提示： 本文最后更新于2025-09-30 16:06:44，某些文章具有时效性，若有错误或已失效，请在下方留言或联系在线客服。

文章版权声明 1 本网站名称： 创客网
2 本站永久网址：https://new.ie310.com
1 本文采用非商业性使用-相同方式共享 4.0 国际许可协议[CC BY-NC-SA]进行授权
2 本站所有内容仅供参考，分享出来是为了可以给大家提供新的思路。
3 互联网转载资源会有一些其他联系方式，请大家不要盲目相信，被骗本站概不负责！
4 本网站只做项目揭秘，无法一对一教学指导，每篇文章内都含项目全套的教程讲解，请仔细阅读。
5 本站分享的所有平台仅供展示，本站不对平台真实性负责，站长建议大家自己根据项目关键词自己选择平台。
6 因为文章发布时间和您阅读文章时间存在时间差，所以有些项目红利期可能已经过了，能不能赚钱需要自己判断。
7 本网站仅做资源分享，不做任何收益保障，创业公司上收费几百上千的项目我免费分享出来的，希望大家可以认真学习。
8 本站所有资料均来自互联网公开分享，并不代表本站立场，如不慎侵犯到您的版权利益，请联系79283999@qq.com删除。

本站资料仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

THE END

创业经验项目思路

文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中
文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中	文字广告位招租中

122:18 如有玩具5折券托马斯和朋友玩具-卡莉和桑迪运输好伙伴轨道套装HDY58，部分用户砸落79-20

2防止重复点击同一格导致元素消失：基于JavaScript的游戏开发技巧

321:14 猫超搜猫砂领5品牌金，陶金币频道加购，拍下3 神经猫豆腐膨润土混合猫砂2

420:11 如有服饰99-50红bao 鸭鸭男款羽绒服拍下35

520:33 御東龍蒲烧鳗鱼145g，买3件45.06

6拆解“今日话题”与“婚恋”相结合，流量爆炸，比流量主变现能力更强的玩法全套干货分享

热门广告位

网站归档开源利器：用 sitefetch 实现全站递归爬取并保存为一个 Markdown 格式文本文件

一、简介

二、安装

三、使用示例

四、总结

请登录后发表评论

122:18 如有玩具5折券托马斯和朋友玩具-卡莉和桑迪运输好伙伴轨道套装HDY58，部分用户砸落79-20

2防止重复点击同一格导致元素消失：基于JavaScript的游戏开发技巧

321:14 猫超搜猫砂领5品牌金，陶金币频道加购，拍下3 神经猫豆腐膨润土混合猫砂2

420:11 如有服饰99-50红bao 鸭鸭男款 羽绒服拍下35

520:33 御東龍蒲烧鳗鱼145g，买3件45.06

6拆解“今日话题”与“婚恋”相结合，流量爆炸，比流量主变现能力更强的玩法 全套干货分享

热门广告位

网站归档开源利器：用 sitefetch 实现全站递归爬取并保存为一个 Markdown 格式文本文件

一、简介

二、安装

三、使用示例

四、总结

请登录后发表评论

420:11 如有服饰99-50红bao 鸭鸭男款羽绒服拍下35

6拆解“今日话题”与“婚恋”相结合，流量爆炸，比流量主变现能力更强的玩法全套干货分享