Loading... # TinyFish Web Agenting 平台技术分析 # 一、新闻概述 ## 1. 标题 TinyFish:从 Web Scraping 到 Web Agenting 的技术范式转变 ## 2. 发布时间 2025 年 1 月 31 日 ## 3. 来源 X (Twitter) @techNmak # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 TinyFish 发布新一代 Web 数据获取平台,宣称传统 Web Scraping 已经过时,Web Agenting 时代正式到来。 ### B. 核心亮点 - 用自然语言替代 CSS 选择器 - 统一 API 接口处理任意数量目标网站 - 真实浏览器自动化,非模拟请求 - 企业级基础设施,生产环境就绪 ## 2. 关键信息 ### A. 产品定位 将整个实时 Web 转变为单一 API 接口 ### B. 核心价值 - 输入:自然语言指令(如 "查找 X 的可用性") - 目标:1 个或 100 个 URL - 输出:结构化 JSON 数据 ### C. 技术特点 - 访问实时 Web,非模拟 - 处理动态 JavaScript 内容 - 内置日志、错误处理、结构化数据 ## 3. 背景介绍 ### A. 痛点分析 传统 Web Scraping 面临的核心问题: - CSS 选择器(div > .class > span)在网站更新时频繁失效 - 为每个新目标构建自定义 Bot 浪费工程时间 ### B. 技术演进 从基于选择器的静态抓取,向基于智能 Agent 的动态交互转变 # 三、详细报道 ## 1. 主要内容 ### A. One API, Many Sites(统一 API,多站点支持) **核心特点**: - 无论访问 1 个还是 50 个 URL,使用相同的接口契约 - 开发者专注于业务逻辑目标 - TinyFish 处理导航、点击、输入等底层操作 **技术优势**: ```mermaid graph LR A[开发者] -->|自然语言指令| B[TinyFish API] B -->|统一契约| C[目标网站1] B -->|统一契约| D[目标网站2] B -->|统一契约| E[目标网站N] C -->|结构化数据| B D -->|结构化数据| B E -->|结构化数据| B B -->|JSON响应| A ```  ### B. Real Automation(真实自动化) **核心能力**: - 不仅是"读取"页面内容 - 真实交互:填写表单、多步骤导航、处理动态 JS 内容 **技术对比**: | 传统 Scraping | TinyFish Web Agenting | |--------------|----------------------| | 静态 HTML 解析 | 真实浏览器执行 | | 选择器定位元素 | 自然语言理解 | | 无法处理 JS 交互 | 完整 JS 执行环境 | | 单步数据提取 | 多步骤流程自动化 | ### C. Production Ready(生产就绪) **企业级特性**: - 大型企业使用的基础设施 - 内置日志系统 - 错误处理机制 - 结构化数据输出 **架构设计**: ```mermaid graph TB subgraph 开发者侧 A[自然语言指令] B[业务逻辑层] end subgraph TinyFish 平台 C[API 网关] D[Agent 编排层] E[浏览器池] F[日志系统] G[错误处理] end subgraph 目标网站 H[(网站1)] I[(网站2)] J[(网站N)] end A --> C C --> D D --> E E --> H E --> I E --> J H --> D I --> D J --> D D --> F D --> G F --> B G --> B D --> B ```  ## 2. 技术细节 ### A. 技术栈推测 基于描述,可能采用: - **浏览器自动化**:Playwright 或 Puppeteer - **AI 理解层**:LLM 驱动的自然语言处理 - **任务编排**:工作流引擎管理多步骤操作 - **数据提取**:结构化输出映射 ### B. 与传统方案对比 | 维度 | 传统 Scraping | Web Agenting | |------|--------------|--------------| | 维护成本 | 高(选择器频繁失效) | 低(AI 适应页面变化) | | 扩展性 | 需为每个站点定制 | 统一接口自动适配 | | 交互能力 | 仅限静态内容 | 完整浏览器交互 | | 开发效率 | 低 | 高 | | 技术门槛 | 中等 | 低(自然语言) | ### C. 适用场景 - 价格监控(电商、旅游) - 数据聚合(新闻、招聘) - 自动化测试(表单提交流程) - 竞品分析(动态内容获取) -供应链监控(库存、价格) ## 3. 数据与事实 ### A. 市场反响 - 发布后短时间内获得 7,812 次浏览 - 技术社区关注度较高 ### B. 商业模式 - 企业级基础设施对外提供服务 - 面向开发者的 API 产品 # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 - Web Scraping 向 AI Agent 演进是大势所趋 - 自然语言交互将成为数据获取的标准接口 - 传统爬虫工具面临升级压力 ### B. 竞争格局 - 与传统爬虫工具(Scrapy、BeautifulSoup)形成差异化竞争 - 与其他 AI Agent 平台(如 MultiOn)进入同一赛道 - 可能催生更多"API 化"的 Web 交互服务 ## 2. 用户影响 ### A. 开发者 - 降低技术门槛:无需精通选择器和 DOM 结构 - 提升开发效率:快速适配新目标网站 - 减少维护成本:页面变化无需修改代码 ### B. 企业 - 数据获取成本降低 - 业务响应速度提升 - 可扩展性增强 ### C. 网站 - 面临更智能的数据访问压力 - 可能需要升级反爬虫策略 - API 开放可能成为新趋势 ## 3. 技术趋势 ### A. AI Agent 范式 - 从"指定怎么做"到"说明做什么" - AI 负责理解和执行细节 - 人类专注于业务逻辑 ### B. Web 即 API - 网页本身成为 API 接口 - UI 交互可通过 API 触发 - 前后端边界进一步模糊 ### C. 生态影响 - 可能催生新一代开发工具 - 测试自动化领域将受益 - 数据集成成本降低 # 五、各方反应 ## 1. 官方定位 - 定位为企业级基础设施 - 强调生产环境就绪 - 主张 Web Scraping 已经过时 ## 2. 技术社区评价 ### A. 积极观点 - 自然语言接口是未来方向 - 降低数据获取门槛 - 统一 API 提升开发效率 ### B. 关注点 - 成本问题(企业级基础设施费用) - 可靠性和稳定性验证 - 法律和合规性(数据获取边界) ### C. 质疑声音 - 真实场景中的复杂度可能被低估 - 性能和延迟问题 - 与专业爬虫工具的效能对比 ## 3. 潜在挑战 ### A. 技术挑战 - 复杂交互场景的准确率 - 性能优化(大规模并发) - 异常处理和恢复 ### B. 商业挑战 - 定价策略 - SLA 保证 - 客户获取成本 ### C. 法律风险 - 数据获取合规性 - robots.txt 尊重 - 知识产权边界 # 六、相关技术 ## 1. 同类产品 - **MultiOn**:AI Agent 驱动的 Web 自动化 - **Browse AI**:无代码 Web 抓取机器人 - **Apify**:Web 抓取和自动化平台 - **PhantomBuster**:云端自动化工具 ## 2. 技术栈参考 - **Playwright**:微软出品的浏览器自动化工具 - **Puppeteer**:Chrome DevTools Protocol 封装 - **Selenium**:传统浏览器自动化框架 ## 3. 相关概念 - **Web Scraping**:传统网页数据抓取 - **RPA(机器人流程自动化)**:业务流程自动化 - **AI Agent**:AI 驱动的智能代理 # 七、总结 TinyFish 代表了 Web 数据获取技术的演进方向:从依赖脆弱选择器的传统 Scraping,转向基于 AI 理解的 Web Agenting。其核心价值在于用自然语言替代技术细节,用统一接口降低复杂度,用真实浏览器实现完整交互能力。 这一趋势反映了 AI Agent 范式在更广泛领域的渗透:将复杂的技术细节抽象化,让开发者专注于业务逻辑本身。对于数据密集型业务和需要频繁获取 Web 内容的应用场景,这类平台将带来显著的生产力提升。 然而,生产环境的大规模应用仍需验证其可靠性、成本效益和法律合规性。Web Scraping 的"死亡"可能为时尚早,但 Web Agenting 的时代确实已经到来。 *** ## 参考资料 1. [Tech with Mak on X: "Web Scraping is dead. Web Agenting is here."](https://x.com/techNmak/status/2017281169004609637?s=19) 最后修改:2026 年 01 月 31 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏