技能:deep-scraper
概述
一款用于深度网络抓取的高性能工程工具。它使用容器化的 Docker + Crawlee (Playwright) 环境,能够突破 YouTube 和 X/Twitter 等复杂网站的保护措施,提供“拦截级别”的原始数据。
要求
- Docker:必须在主机上安装并运行。
-
镜像:使用标签clawd-crawlee构建环境。
- 构建命令:docker build -t clawd-crawlee skills/deep-scraper/
集成指南
只需将skills/deep-scraper目录复制到您的skills/文件夹中。确保 Dockerfile 保留在技能目录内,以便进行独立的部署。
标准接口 (CLI)
docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL]
输出规范 (JSON)
抓取结果以 JSON 字符串形式打印到标准输出:
- status:SUCCESS | PARTIAL | ERROR
- type:TRANSCRIPT | DESCRIPTION | GENERIC
- videoId:(针对 YouTube)经过验证的视频 ID。
- data:核心文本内容或字幕。
核心规则
- ID 验证:所有 YouTube 任务必须验证视频 ID,以防止缓存污染。
- 隐私:严格禁止抓取受密码保护或非公开的个人信息。
- 专注 Alpha:自动过滤广告和噪音,提供为 LLM 处理优化的纯净数据。


微信扫一扫,打赏作者吧~
网友评论
最新评论