兔展智能:在深圳“看见”视觉AI下一站

来源:搜狐新闻 分类:手机

「01、」南方日报记者曾子航

在“i深圳”政务服务平台上,市民只需说“我要进行房屋转租登记”,原本需要二十多个步骤、填写多份表单的复杂流程,就能被瞬间简化成几轮对话。AI实时生成一张可操作的交互卡片,全程无需切换页面,从容选择时段、填写信息、提交审核。这套将“自然语言”转化为“办事动作”的系统,名为SkillsUI,由深圳兔展智能自主研发。目前,该系统已成功接入深圳的市民办事、医院挂号、社区预约等多个场景,无论是房屋转租登记、社保查询等事务,市民都能“说一句话”即可办理。

得益视觉空间智能大模型上的多项突破,这家从北大宿舍走出来的深圳南山企业,成功将大模型搬进“生产线”,让AI办事变得更为便捷,为广东破解AI落地“最后一公里”提供了崭新路径。聚焦视觉空间智能“下半场” 亮出开源“中国方案”

兔展智能创始人董少灵的创业历程,始于北京大学的宿舍。2013年,移动互联网浪潮初起,PC端信息承载工具在手机上遭遇水土不服。董少灵和室友敏锐察觉到这一问题——能不能创建一个移动端的信息承载工具?他们给这款工具取名“兔展”。依托HTML5技术,兔展意外成为全球早期的H5创作工具之一。

2022年,生成式AI浪潮席卷而来,董少灵面临新的方向选择。当时,多数企业集中研究语言大模型,他却将目光投向了“模拟人类右脑”的视觉空间智能。“人类感知世界八成来自于视觉与空间,语言模型只是这轮革命的‘上半场’。”在公司首席科学家、北京大学博士生导师袁粒的支持下,董少灵决定“押注”视觉空间大模型。

这一决策塑造了兔展的今日格局。与2024年美国OpenAI发布Sora几乎同时间,兔展智能的Open-Sora Plan宣布开源,成为全球最早的文生视频模型开源项目之一。董少灵说,这种“开源引路”的勇气,让兔展迅速获得全球认可:Open-Sora Plan五次登顶GitHub全球趋势榜,单模型下载超过2600万次,字节、腾讯、华为等企业纷纷采用,全球代码引用次数位列当年视觉大模型之首。

在技术更新上,兔展展现出卓越速度:2025年5月,大模型UniWorld-V1率先实现“理解—生成—编辑”统一架构;后续推出的UniWorld-V2,比谷歌同类模型Nano Banana早三个月;2026年4月,UniWorld-V2.5与OpenAI的GPT-Image-2同月发布,在像素级精准控制上达到同等水平。自研的“兔灵”大模型,成为广东省首个完成备案的视觉空间智能大模型。

更令人关注的是国产化适配的进展。兔展成为华为昇腾910C全球首个大规模用户,Open-Sora Plan V1.5成为行业首个100%基于昇腾架构的视觉生成模型,攻克算子适配、大规模训练等多项“卡脖子”技术难点。这不仅是企业的技术突破,也标志着广东在AI底层算力生态建设上的重要进展。如今,位于深圳市南山区的兔展智能,已成为国家高新技术企业、广东首个“AI国家级高技能人才培训基地”,180人团队中有七成以上是研发人员,其中不乏来自北大、清华等顶尖高校的杰出人才。深圳南山完善的ICT产业链和创新氛围,为这支年轻团队提供了绝佳的成长平台。

用AI打通“最后一公里” 重构企业交互逻辑

在今年的广东省人工智能应用对接大会上,兔展的SkillsUI系统引起广泛关注。它的出现,精准击中当前AI产业化的核心难题:会说聊天的AI不少,但能实际办事的AI依旧稀缺。一家年营收突破百亿元的零售企业曾统计:员工平均每天需在11个系统间切换,办理一次报销、发出一单货需要跨越4.3个后台。大模型虽

相关推荐