Scrape技能使用说明

subsun 4周前 (03-27) openclaw小龙虾 49 0

数据抓取前合规性检查清单

在编写任何抓取代码之前:

  1. robots.txt 文件—— 获取{域名}/robots.txt,检查目标路径是否被禁止。如果是,请停止。
  2. 服务条款—— 检查/terms/tos/legal等页面。明确禁止抓取 = 需要获得许可。
  3. 数据类型—— 公共事实数据(价格、列表)相对安全。个人数据会触发 GDPR/CCPA。
  4. 身份验证—— 未经授权,登录后的数据是禁区。切勿抓取受保护内容。
  5. 是否有可用 API?—— 如果网站提供 API,务必使用它。在有 API 的情况下进行抓取通常违反服务条款。

法律边界

  • 公开数据,无需登录— 通常合法(hiQ 诉 LinkedIn 案,2022年)
  • 绕过访问障碍— 存在违反《计算机欺诈和滥用法》(CFAA)的风险(范布伦诉美国案,2021年)
  • 无视robots.txt协议— 灰色地带,通常违反服务条款(Meta 诉 Bright Data 案,2024年)
  • 未经同意收集个人数据— 违反《通用数据保护条例》(GDPR)/《加州消费者隐私法案》(CCPA)
  • 重新发布受版权保护的内容— 侵犯版权

请求规范

  • 请求频率限制:请求间隔至少2-3秒。过快 = 增加服务器负担 = 法律风险。
  • 用户代理(User-Agent):使用真实的浏览器标识字符串并附上联系邮箱:Mozilla/5.0 ... (联系方式:you@email.com)
  • 遵守429状态码:采用指数退避策略。无视429状态码表明存在损害意图。
  • 会话复用:保持连接开放以减少服务器负载。

数据处理

  • 立即剥离个人身份信息(PII)— 除非法律允许,否则不要收集姓名、电子邮件、电话号码。
  • 禁止指纹识别— 不要组合数据以间接识别个人。
  • 最小化存储— 只缓存所需内容,删除不需要的。
  • 审计追踪— 记录内容、时间、地点。若受质疑,可作为善意的证据。

关于代码模式和robots.txt解析器,请参见code.md

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏

相关推荐

网友评论

  • (*)

最新评论

用户管理

您好,欢迎到访网站!
    用户注册

上网淘巴领天猫淘宝优惠券,一年省好几千。

广告  ×

您是本站第819758名访客 今日有0篇新文章/评论