登录管理
管理小红书 Session,确保爬虫正常运行
Session 验证
启动浏览器访问小红书,验证当前 session 是否有效(约 5-10 秒)。爬虫运行时会自动判定为有效。
扫码登录
当 session 过期时,点击下方按钮打开扫码登录页面。扫码成功后,浏览器会自动保存 session,后续爬取无需再次登录。
手动更新 Cookie
备用方案如果扫码不可用,可以手动粘贴从浏览器复制的 web_session 值。
Session 池
{{ spStats.active }} 可用 / {{ spStats.total }} 总计| # | 备注 | web_session | 状态 | 成功 | 失败 | 操作 |
|---|---|---|---|---|---|---|
| {{ i + 1 }} | {{ s.label || '-' }} | {{ s.web_session.substring(0, 12) }}... | {{ s.status === 'active' ? '可用' : s.status === 'cooldown' ? '冷却' : '过期' }} | {{ s.success_count }} | {{ s.fail_count }} |
|
自动化机制说明
自动续期:爬虫启动时使用 Playwright 持久化浏览器上下文(browser_data 目录),在爬取过程中浏览器会自动刷新 session,无需人工干预。
智能登录:爬虫启动时会自动检查:①浏览器持久化 session → ②config cookie → ③扫码登录,逐级降级,优先使用最新的有效 session。
日常维护:正常情况下只需首次扫码一次。如果长时间(数天)不运行爬虫导致 session 过期,再扫码一次即可。
爬取设置
配置爬取平台、模式和目标
爬取模式
全量模式:爬取所有作品,不限日期
日期范围模式:只爬取 {{ config.batch_crawl.date_start || '?' }} ~ {{ config.batch_crawl.date_end || '?' }} 范围内的作品
增量模式:已完成的作者仅爬取上次之后的新内容,已有作品只更新互动量
此处填写的链接用于「开始爬取」按钮的单次爬取,与批量爬取的作者列表互不影响
评论设置
开启后会获取作品评论
反爬策略
调整等待时间、伪装行为等防检测参数
随机等待
批次暂停
动态调整
假动作
并发控制
建议 2~3,过高触发反爬
浏览器指纹
批量爬取
从 Excel 读取作者列表,逐个爬取并导出
增量=仅爬上次之后的新内容
点赞+评论+收藏,0=不过滤
Excel 作者列表
{{ creators.length }} 个| # | 名称 | ID | 链接 | 操作 |
|---|---|---|---|---|
| {{ i + 1 }} | {{ c.name }} | {{ c.id }} | {{ c.url.substring(0, 55) }}... |
|
执行控制
飞书多维表格
爬取完成后自动写入飞书 Bitable
爬取完成后自动创建并写入多维表格
刷新飞书视频汇总表中的临时下载链接(有效期约 24 小时)
URL 格式: https://xxx.feishu.cn/base/APP_TOKEN
使用 Gemini 从视频中提取完整口播脚本,结果写入飞书汇总表
修改提示词可以调整脚本提取的效果,如要求输出结构化分析、摘要等
{{ scriptExtract.result.message }}
总记录: {{ scriptExtract.result.total }} | 成功: {{ scriptExtract.result.processed }} | 失败: {{ scriptExtract.result.failed }} | 跳过: {{ scriptExtract.result.skipped }} | 耗时: {{ scriptExtract.result.elapsed_sec }}s
断点续爬
中断后自动从上次位置继续
记录已爬取的内容,下次自动跳过
每爬取 N 条自动保存进度
自动重试上次失败的请求
适合 10 万+ 条数据
运行日志 & 数据文件
查看爬取进度和导出文件
暂无日志
启动爬取后日志将在此显示