项目简介MediaCrawler 是功能强大的多平台自媒体数据采集工具支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取。技术原理其核心技术基于 Playwright 浏览器自动化框架登录并保存登录态无需进行 JS 逆向。利用保留登录态的浏览器上下文环境通过 JS 表达式获取签名参数。优势在于无需逆向复杂的加密算法大幅降低了技术门槛。功能特性平台关键词搜索指定帖子 ID 爬取二级评论指定创作者主页登录态缓存IP 代理池生成评论词云图小红书✅✅✅✅✅✅✅抖音✅✅✅✅✅✅✅快手✅✅✅✅✅✅✅B 站✅✅✅✅✅✅✅微博✅✅✅✅✅✅✅贴吧✅✅✅✅✅✅✅知乎✅✅✅✅✅✅✅MediaCrawlerPro 重磅发布开源不易欢迎订阅支持。MediaCrawlerPro 不仅专注于学习成熟项目的架构设计其代码设计思路同样值得深入学习。核心优势核心功能升级新增自媒体内容拆解 Agent 功能。具备断点续爬功能重点特性。支持多账号 IP 代理池重点特性。去除 Playwright 依赖使用更简单。支持完整 Linux 环境。架构设计优化代码重构优化更易读易维护解耦 JS 签名逻辑。达到企业级代码质量适合构建大型爬虫项目。架构设计完美扩展性高源码学习价值更大。额外功能提供自媒体视频下载器桌面端适合学习全栈开发。支持多平台首页信息流推荐HomeFeed。支持 AI Agent SkillOpenClaw / Claude Code / Cursor 一键安装让 Agent 自动爬取数据基于评论分析的 AI Agent 正在开发中。点击查看 MediaCrawlerPro 项目主页快速开始如果这个项目对您有帮助请给个 ⭐ Star 支持一下前置依赖uv 安装推荐在进行下一步操作之前请确保电脑上已经安装了 uv。安装地址uv 官方安装指南。验证安装在终端输入命令 uv --version如果正常显示版本号证明已经安装成功。推荐理由uv 是目前最强的 Python 包管理工具速度快、依赖解析准确。Node.js 安装项目依赖 Node.js请前往官网下载安装下载地址版本要求 16.0.0。Python 包安装# 进入项目目录 cd MediaCrawler # 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性 uv sync浏览器驱动安装可选如果使用默认的 CDP 模式连接已有 Chrome 浏览器无需安装浏览器驱动。仅在使用标准 Playwright 模式时需要安装。# 仅在标准 Playwright 模式下需要安装浏览器驱动 uv run playwright installChrome 浏览器配置推荐项目默认使用 CDP 模式连接用户已有的 Chrome 浏览器可以复用浏览器已有的登录状态、Cookie、扩展等大幅降低平台风控检测风险。使用前需要安装最新版 Chrome 浏览器版本 144下载地址。开启远程调试功能在 Chrome 地址栏输入 chrome://inspect/#remote-debugging勾选 Allow remote debugging for this browser instance。页面显示 Server running at: 127.0.0.1:9222 表示已就绪。提示运行爬虫后Chrome 浏览器会弹出确认对话框点击“接受”即可。程序会等待用户确认60 秒内操作完成即可。如果不想使用 CDP 模式可以在 config/base_config.py 中设置 ENABLE_CDP_MODE False 切换为标准 Playwright 模式。运行爬虫程序# 在 config/base_config.py 查看配置项目功能写的有中文注释 # 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论 uv run main.py --platform xhs --lt qrcode --type search # 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息 uv run main.py --platform xhs --lt qrcode --type detail # 打开对应APP扫二维码登录 # 其他平台爬虫使用示例执行下面的命令查看 uv run main.py --helpWebUI 可视化操作界面MediaCrawler 提供了基于 Web 的可视化操作界面无需命令行也能轻松使用爬虫功能。# 启动 API 服务器默认端口 8080 uv run uvicorn api.main:app --port 8080 --reload # 或者使用模块方式启动 uv run python -m api.main启动成功后访问 http://localhost:8080 即可打开 WebUI 界面。WebUI 功能特性包括可视化配置爬虫参数平台、登录方式、爬取类型等、实时查看爬虫运行状态和日志、数据预览和导出。使用 Python 原生 venv 管理环境不推荐# 进入项目根目录 cd MediaCrawler # 创建虚拟环境 # 我的 python 版本是3.11requirements.txt 中的库是基于这个版本的 # 如果是其他 python 版本可能 requirements.txt 中的库不兼容需自行解决 python -m venv venv # macOS Linux 激活虚拟环境 source venv/bin/activate # Windows 激活虚拟环境 venv\Scripts\activate # 安装依赖库 pip install -r requirements.txt # 安装 playwright 浏览器驱动 playwright install# 项目默认是没有开启评论爬取模式如需评论请在 config/base_config.py 中的 ENABLE_GET_COMMENTS 变量修改 # 一些其他支持项也可以在 config/base_config.py 查看功能写的有中文注释 # 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论 python main.py --platform xhs --lt qrcode --type search # 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息 python main.py --platform xhs --lt qrcode --type detail # 打开对应APP扫二维码登录 # 其他平台爬虫使用示例执行下面的命令查看 python main.py --help数据保存MediaCrawler 支持多种数据存储方式包括 CSV、JSON、JSONL、Excel、SQLite 和 MySQL 数据库。详细使用说明请查看数据存储指南交流群组微信交流群点击加入B 站账号关注我分享 AI 与爬虫技术知识赞助商展示TikHub.io 提供 900 高稳定性数据接口覆盖 TK、DY、XHS、Y2B、Ins、X 等 14 海内外主流平台支持用户、内容、商品、评论等多维度公开数据 API并配套 4000 万 已清洗结构化数据集使用邀请码 cfzyejV9 注册并充值即可额外获得 $2 赠送额度。Atlas Cloud 是一个全模态 AI 推理平台让开发者通过统一的 AI API 访问视频生成、图像生成和 LLM API无需分别维护多个厂商集成即可调用 300 精选模型。Atlas Cloud 最新推出 coding plan 优惠为开发者提供更具性价比的 API 访问预算。成为赞助者成为赞助者可以将您的产品展示在这里每天获得大量曝光联系方式微信relakkes邮箱relakkesgmail.com请作者喝杯咖啡如果这个项目对您有帮助欢迎打赏支持您的每一份支持都是我持续更新的动力 ❤️。微信赞赏 支付宝 Buy Me a Coffee其他常见问题MediaCrawler 完整文档爬虫入门教程CrawlerTutorial 免费教程新闻爬虫开源项目NewsCrawlerCollectionStar 趋势图如果这个项目对您有帮助请给个 ⭐ Star 支持一下让更多的人看到 MediaCrawler参考小红书签名仓库Cloxl 的 xhs 签名仓库小红书客户端ReaJason 的 xhs 仓库短信转发SmsForwarder 参考仓库内网穿透工具ngrok 官方文档免责声明项目目的与性质本项目是作为一个技术研究与学习工具而创建的旨在探索和学习网络数据采集技术。本项目专注于自媒体平台的数据爬取技术研究仅供学习者和研究者进行技术交流。法律合规性声明本项目开发者郑重提醒用户在下载、安装和使用本项目时严格遵守中华人民共和国相关法律法规包括但不限于《中华人民共和国网络安全法》、《中华人民共和国反间谍法》等所有适用的国家法律和政策。用户应自行承担一切因使用本项目而可能引起的法律责任。使用目的限制本项目严禁用于任何非法目的或非学习、非研究的商业行为。不得用于任何形式的非法侵入他人计算机系统不得用于任何侵犯他人知识产权或其他合法权益的行为。用户应保证其使用本项目的目的纯属个人学习和技术研究不得用于任何形式的非法活动。免责声明开发者已尽最大努力确保本项目的正当性及安全性但不对用户使用本项目可能引起的任何形式的直接或间接损失承担责任。包括但不限于由于使用本项目而导致的任何数据丢失、设备损坏、法律诉讼等。知识产权声明本项目的知识产权归开发者所有。本项目受到著作权法和国际著作权条约以及其他知识产权法律和条约的保护。用户在遵守本声明及相关法律法规的前提下可以下载和使用本项目。最终解释权关于本项目的最终解释权归开发者所有。开发者保留随时更改或更新本免责声明的权利恕不另行通知。