MediaCrawler是什么?

MediaCrawler是由 NanmiCoder开发并维护的开源Python社交媒体数据采集工具,核心定位为技术学习与非商业研究用的轻量化爬虫框架,主要用于采集和分析各类社交媒体或自媒体平台上的数据。支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取,包括用户发的笔记、视频、图文等。

MediaCrawler

MediaCrawler主要功能

  • 多平台公开数据采集:可以采集抖音、小红书、B 站、微博、知乎、快手等主流中文社交媒体,采集其平台公开的帖子/视频信息、贴评论(二级评论)、上传者公开的主页数据(如其作品列表、互动数据/获赞数)等;
  • 灵活的采集策略:支持关键词搜索采集、指定作品ID精准采集、用户主页批量采集3种采集模式,可设置采集上限数量、时间区间,满足不同维度的需求采集不同数据;
  • 低门槛适配反爬:内置基础反爬机制(UA 池、请求频率控制),支持二维码登录态缓存,使用 Playwright 爬取模拟浏览器上下文获取平台加密参数等,不用手动逆向平台接口,新手也能快速配置使用;
  • 多格式数据输出:采集的数据可直接导出为CSV、JSON、Excel等通用格式文件,也支持导出到 MySQL 数据库,对接 Pandas、Excel 数据处理相关工具无需配置等;
  • 轻量化部署:基于Python3.9+开发,依赖库少,多平台(Windows、macOS、Linux)通用;Pro版本还额外支持Doker容器、轮换多账号,进一步降低部署和使用成本。

适用场景

  • 爬虫技术学习:适合爬虫入门者、Python学习者学习爬虫各平台数据爬取实现原理、反爬处理、采集处理接口实现等,爬虫代码结构简单明了,是开源学习的典型范例;
  • 非商业数据分析:自媒体从业者、市场分析从业者可以爬取公开行业的关键词、竞对账号数据等爬取内容数据、用户偏好、爆款逻辑等非商业分析研究;
  • 学术研究支持:高校师生、科研人员可收集一些免费的社交媒体公开数据,用于社会学、传播学、舆情分析等有关的学术研究(需遵守有关学术伦理和社交媒体规则);
  • 个人合规归档:平常个人用户可收集自己公开发表的作品及其周边的相关内容数据,归档本地备份,避免数据丢失。

MediaCrawler怎么用?

  1. 搭基础环境:电脑安装Python 3.9+,解压源码后,在命令行输入pip install -r requirements.txt安装依赖(报错换国内源加-i https://pypi.tuna.tsinghua.edu.cn/simple);
  2. 下载源码:从官网(https://nanmicoder.github.io/MediaCrawler/)进入GitHub仓库下载源代码包解压;
  3. 改核心配置:打开解压文件夹里的config.py/settings.py,只改3个关键参数 —— 选采集平台(如PLATFORM = “xiaohongshu”)、填个采集关键词(如KEYWORDS = [“爆款内容”])、设定采集个数(如MAX_COUNT = 50),代理可不填;
  4. 启动采集:打开命令行切换至源码文件夹,命令行进入 python main.py,开采集前需要扫码登录指定平台(登录账户会留存),等采集完成即可;
  5. 提取数据:采集好的内容在源码文件夹data目录里,直接打开 CSV/JSON 文件就行了,就是作品、评论、点赞……等各种资料。 
关于MediaCrawler特别声明

本站自媒体指南所展示的MediaCrawler均来源于网络,本站无法保证外部链接的准确性与完整性,且不对外部链接指向的内容拥有实际控制权。收录于2026年3月2日 上午10:04的网页内容,在收录时均合规合法;若后续内容出现违规情况,可联系网站管理员进行删除处理,自媒体指南对此不承担任何法律责任。

MediaCrawler 相关网站

暂无评论

暂无评论...