MediaCrawler

MediaCrawler是一个开源的自媒体平台爬虫工具，主要用于采集和分析各类社交媒体或自媒体平台上的数据。支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取，...

0收藏0点赞18浏览0评论

MediaCrawler官网介绍

MediaCrawler是一个轻量级的Python爬虫框架，支持多平台社交媒体数据采集与分析，适合技术学习与非商业研究。

MediaCrawler是什么？

MediaCrawler是由 NanmiCoder开发并维护的开源Python社交媒体数据采集工具，核心定位为技术学习与非商业研究用的轻量化爬虫框架，主要用于采集和分析各类社交媒体或自媒体平台上的数据。支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取，包括用户发的笔记、视频、图文等。

MediaCrawler主要功能

多平台公开数据采集：可以采集抖音、小红书、B 站、微博、知乎、快手等主流中文社交媒体，采集其平台公开的帖子／视频信息、贴评论（二级评论）、上传者公开的主页数据（如其作品列表、互动数据／获赞数）等；
灵活的采集策略：支持关键词搜索采集、指定作品ID精准采集、用户主页批量采集3种采集模式，可设置采集上限数量、时间区间，满足不同维度的需求采集不同数据；
低门槛适配反爬：内置基础反爬机制（UA 池、请求频率控制），支持二维码登录态缓存，使用 Playwright 爬取模拟浏览器上下文获取平台加密参数等，不用手动逆向平台接口，新手也能快速配置使用；
多格式数据输出：采集的数据可直接导出为CSV、JSON、Excel等通用格式文件，也支持导出到 MySQL 数据库，对接 Pandas、Excel 数据处理相关工具无需配置等；
轻量化部署：基于Python3.9+开发，依赖库少，多平台（Windows、macOS、Linux）通用；Pro版本还额外支持Doker容器、轮换多账号，进一步降低部署和使用成本。

适用场景

爬虫技术学习：适合爬虫入门者、Python学习者学习爬虫各平台数据爬取实现原理、反爬处理、采集处理接口实现等，爬虫代码结构简单明了，是开源学习的典型范例；
非商业数据分析：自媒体从业者、市场分析从业者可以爬取公开行业的关键词、竞对账号数据等爬取内容数据、用户偏好、爆款逻辑等非商业分析研究；
学术研究支持：高校师生、科研人员可收集一些免费的社交媒体公开数据，用于社会学、传播学、舆情分析等有关的学术研究（需遵守有关学术伦理和社交媒体规则）；
个人合规归档：平常个人用户可收集自己公开发表的作品及其周边的相关内容数据，归档本地备份，避免数据丢失。

MediaCrawler怎么用？

搭基础环境：电脑安装Python 3.9+，解压源码后，在命令行输入pip install -r requirements.txt安装依赖（报错换国内源加-i https://pypi.tuna.tsinghua.edu.cn/simple）；
下载源码：从官网（https://nanmicoder.github.io/MediaCrawler/）进入GitHub仓库下载源代码包解压；
改核心配置：打开解压文件夹里的config.py/settings.py，只改3个关键参数 —— 选采集平台（如PLATFORM = “xiaohongshu”）、填个采集关键词（如KEYWORDS = [“爆款内容”]）、设定采集个数（如MAX_COUNT = 50），代理可不填；
启动采集：打开命令行切换至源码文件夹，命令行进入 python main.py，开采集前需要扫码登录指定平台（登录账户会留存），等采集完成即可；
提取数据：采集好的内容在源码文件夹data目录里，直接打开 CSV/JSON 文件就行了，就是作品、评论、点赞……等各种资料。

特别声明

本站自媒体指南所展示的MediaCrawler均来源于网络，本站无法保证外部链接的准确性与完整性，且不对外部链接指向的内容拥有实际控制权。收录于2026年3月2日上午10:04的网页内容，在收录时均合规合法；若后续内容出现违规情况，可联系网站管理员进行删除处理，自媒体指南对此不承担任何法律责任。

自媒体指南专为自媒体创作者打造的资源聚合平台！本文地址 https://www.zmtzn.com/sites/1948.html 转载请注明