Loading... # UI-TARS-desktop:字节跳动开源多模态AI代理栈 # 一、新闻概述 ## 1. 标题 UI-TARS-desktop:字节跳动开源多模态AI代理栈,连接前沿AI模型与代理基础设施 ## 2. 发布时间 2025年1月21日(项目初始化),持续更新中 ## 3. 来源 GitHub开源项目 bytedance/UI-TARS-desktop # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 字节跳动开源了名为TARS的多模态AI代理栈,包含两个核心项目:Agent TARS和UI-TARS Desktop。该项目旨在通过先进的多模态大语言模型和MCP工具集成,提供更接近人类任务完成方式的工作流。 ### B. 核心亮点 - 多模态AI代理能力,支持GUI Agent和视觉识别 - 提供CLI和Web UI两种使用方式 - 原生桌面应用程序,支持本地和远程计算机操作 - 完整的MCP集成和工具扩展能力 - 支持多种视觉语言模型,包括UI-TARS、Seed-1.5-VL/1.6系列 ## 2. 关键信息 ### A. 版本号 - 最新版本:v0.3.0(2025年11月5日发布) - UI-TARS Desktop v0.2.0(2025年6月12日发布) ### B. 重要数据 - GitHub Stars:27.6k+ - Forks:2.7k+ - Issues:300个 - Pull Requests:45个 ### C. 涉及产品 - Agent TARS CLI:命令行工具 - Agent TARS Web UI:网页界面 - UI-TARS Desktop:桌面应用程序 - MCP Servers:模型上下文协议服务器 ## 3. 背景介绍 ### A. 项目历史 该项目由字节跳动团队开发,最初于2025年1月21日初始化,经过多次迭代更新,目前已成为功能完善的多模态AI代理平台。 ### B. 相关上下文 TARS项目基于字节跳动的UI-TARS模型和Seed系列视觉语言模型,旨在探索更接近人类任务完成方式的工作形式。 # 三、详细报道 ## 1. 主要内容 ### A. Agent TARS Agent TARS是一个通用的多模态AI代理栈,将GUI Agent和视觉能力带入终端、计算机、浏览器和产品中。 **核心功能**: - CLI和Web UI两种使用模式 - 支持有头和无头服务器执行 - 混合浏览器代理(GUI Agent、DOM或混合策略) - 事件流协议驱动的上下文工程和代理UI - MCP集成,内核基于MCP构建 **支持的模型提供商**: - Volc Engine(豆袋模型) - Anthropic(Claude系列) - 其他兼容的LLM提供商 ### B. UI-TARS Desktop UI-TARS Desktop是一个原生桌面GUI代理应用程序,基于UI-TARS模型驱动。 **功能特性**: - 自然语言控制 - 屏幕截图和视觉识别支持 - 精确的鼠标和键盘控制 - 跨平台支持(Windows/MacOS/Browser) - 实时反馈和状态显示 - 本地处理,隐私安全 ### C. v0.3.0版本更新 2025年11月5日发布的Agent TARS CLI v0.3.0版本带来以下重要更新: **流式支持**: - 多工具流式支持(shell命令、多文件结构化显示) - 运行时设置,包含工具调用和深度思考的计时统计 - 事件流查看器,用于数据流跟踪和调试 **AIO代理沙箱**: - 独家支持AIO agent Sandbox作为一体化工具执行环境 - 提供隔离的执行环境 ### D. v0.2.0版本更新 2025年6月12日发布的UI-TARS Desktop v0.2.0版本引入: - 远程计算机操作员:完全免费,无需配置即可远程控制任何计算机 - 远程浏览器操作员:一键远程控制浏览器 ### E. v0.1.0版本更新 2025年4月17日发布的UI-TARS Desktop v0.1.0版本: - 重新设计的Agent UI - 增强的计算机使用体验 - 新的浏览器操作功能 - 支持先进的UI-TARS-1.5模型 ## 2. 技术细节 ### A. 系统架构 ```mermaid graph TB User[用户] --> CLI[Agent TARS CLI] User --> WebUI[Web UI] User --> Desktop[UI-TARS Desktop] CLI --> LLM[多模态LLM] WebUI --> LLM Desktop --> LLM LLM --> MCP[MCP协议] MCP --> Tools[工具集成] Tools --> Browser[浏览器操作] Tools --> Computer[计算机操作] Tools --> Shell[Shell命令] Desktop --> Local[本地操作员] Desktop --> Remote[远程操作员] ```  ### B. 技术栈 - **前端**:Electron桌面应用 - **后端**:Node.js - **协议**:MCP(Model Context Protocol) - **模型**:UI-TARS、Seed-1.5-VL、Seed-1.6系列 - **语言**:TypeScript ### C. MCP集成 项目内核基于MCP构建,支持挂载MCP服务器以连接各种真实世界工具。MCP是一种标准化的协议,用于AI代理与外部工具和服务之间的通信。 ### D. 部署方式 **本地部署**: - 支持本地模型运行 - 可使用ModelScope平台进行模型部署 **云端部署**: - 支持云服务器部署 - 提供完整的部署文档和教程 ## 3. 数据与事实 ### A. 项目规模 - 代码仓库包含多个主要目录:apps、docs、examples、multimodal、packages等 - 支持多种平台和操作系统 - 活跃的开发社区,持续更新 ### B. 社区活跃度 - Discord社区活跃 - 飞书交流群 - GitHub Issues和Pull Requests活跃 - 官方Twitter账号@agent_tars ### C. 文档资源 - 官方网站:agent-tars.com - 完整的快速开始指南 - API参考文档 - 示例和用例展示 # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 - 推动多模态AI代理技术的发展 - 促进MCP协议的标准化和普及 - 为AI代理与真实世界工具集成提供参考实现 ### B. 竞争格局 - 与其他开源AI代理项目形成差异化竞争 - 提供了更完整的多模态支持 - 中文社区支持良好 ## 2. 用户影响 ### A. 开发者 - 提供了完整的SDK和开发工具 - 降低构建GUI自动化代理的门槛 - 支持自定义MCP服务器开发 ### B. 普通用户 - 提供易于使用的CLI和桌面应用 - 支持自然语言控制,降低使用门槛 - 本地处理保障隐私安全 ### C. 企业用户 - 可用于自动化办公流程 - 支持私有化部署 - 提供完整的API用于集成 ## 3. 技术趋势 ### A. AI代理发展方向 - 从单一文本处理向多模态交互发展 - 从被动响应向主动操作发展 - 从云端处理向边缘计算发展 ### B. 生态系统影响 - MCP协议可能成为AI代理工具集成的标准 - 促进更多MCP服务器的开发 - 推动AI代理在垂直领域的应用 # 五、各方反应 ## 1. 官方回应 字节跳动团队持续更新项目,积极回应社区反馈,定期发布新版本和功能更新。 ## 2. 业内评价 ### A. 技术社区 - GitHub上获得27.6k+ Stars,表明社区高度认可 - 技术博客和媒体广泛报道 - Trendshift.io推荐项目 ### B. 用户反馈 - 社区活跃,Discord和飞书群组讨论热烈 - 用户分享各种使用案例和场景 - 积极提交Issues和Pull Requests ## 3. 用户反馈 ### A. 正面评价 - 功能强大,易于使用 - 文档完善,上手快速 - 多模态能力突出 - 中文支持良好 ### B. 改进建议 - 部分功能稳定性有待提升 - 模型性能和精度可进一步优化 - 希望支持更多模型提供商 # 六、相关链接 ## 1. 官方资源 - GitHub仓库:https://github.com/bytedance/UI-TARS-desktop - 官方网站:https://agent-tars.com - 快速开始指南:https://agent-tars.com/guide/get-started/quick-start.html - API文档:https://agent-tars.com/api/ ## 2. 相关项目 - UI-TARS模型:https://github.com/bytedance/UI-TARS - Midscene(浏览器版本):https://github.com/web-infra-dev/midscene - AIO agent Sandbox:https://github.com/agent-infra/sandbox ## 3. 社区资源 - Discord社区:https://discord.gg/HnKcSBgTVx - 飞书交流群:https://applink.larkoffice.com/client/chat/chatter/add_by_link?link_token=deen76f4-ea3c-4964-93a3-78f126f39651 - 官方Twitter:https://twitter.com/agent_tars - DeepWiki问答:https://deepwiki.com/bytedance/UI-TARS-desktop ## 4. 模型资源 - Hugging Face:https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B - ModelScope:https://www.modelscope.cn/collections/UI-TARS-bccb56fa1ef640 - 论文:https://arxiv.org/abs/2501.12326 *** ## 参考资料 1. [bytedance/UI-TARS-desktop GitHub Repository](https://github.com/bytedance/UI-TARS-desktop) 2. [Agent TARS Official Website](https://agent-tars.com) 3. [UI-TARS-1.5 Model](https://seed-tars.com/1.5) 4. [Agent TARS v0.3.0 Release](https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.3.0) 最后修改:2026 年 02 月 10 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏