支付宝开放平台-开发者社区——AI 日报「3 月 31 日」
谷歌Gemini 2.5 Pro,Grok 3,GPT-4o的原生图像功能,来自Grok、Perplexity和谷歌的Deep Research产品等等,让人惊呼:AI的又一波大爆发来了?可以说,全国AI发展看北京,北京AI发展看海淀。3月29日,智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务
1️⃣图灵奖得主预言中国成AI工业翘楚!海淀硬核AI先锋盛会,涌现更多未来成果
新智元|阅读原文
谷歌Gemini 2.5 Pro,Grok 3,GPT-4o的原生图像功能,来自Grok、Perplexity和谷歌的Deep Research产品等等,让人惊呼:AI的又一波大爆发来了?然而,目前全球的聚光灯中心,已经远远不止集中在美国西海岸了。中国AI圈最近接连不断甩出的几枚核弹,已经让全世界都随之震动,引起山呼海啸一般的后续效应。而中国AI发展的奠基城市,毫无疑问就是北京。可以说,全国AI发展看北京,北京AI发展看海淀。
GPT-4o生图热度还未过去,论坛上,国产AI黑马再次祭出AI视频生成新版本——Vidu Q1。相较于Vidu 2.0,它在视频生成,高可控上再次迈向了一个全新的台阶。去年4月,Vidu首次在中关村论坛亮相,仅用一年的时间,已经完成了超进化。
就视频生成来说,未来发展方向非常广阔。时间空间智能,是未来一个很重要的走向,最终会通向人类的真实物理世界。
2️⃣吉卜力只是开胃小菜,GPT-4o一键抠图「换装换背景」!推理也初步显现
机器之心|阅读原文
这几天,你要说 AI 圈最火的是哪个模型?OpenAI 的 GPT-4o 当仁不让。吉卜力风格的图像和视频在社交圈疯传,被玩出了花。之心用 GPT-4o 和可灵做出了吉卜力版《甄嬛传》全网播放超 20w。
除了一些口型和神情还有出入,人物形象可谓是超绝还原。X 平台上的网友利用 GPT-4o 和 Luma Ray 2,把《疯狂的麦克斯》动画版也做出来了。在网友探索 AI 动画生成的同时,还有一个功能被刨了个底朝天。在 OpenAI 的发布介绍中压根没提,但非常有用的功能 —— 画笔编辑。
在刷爆图像生成的同时,GPT-4o 还有了另一个重大发现:现在可以显示推理时间与思维链过程了。这不禁令人联想,难道 OpenAI 开始合并推理与非推理模型了?正如奥特曼上个月提到的那样,OpenAI 计划统一 o 系列与 GPT 系列模型,构建可以自主判断任务需求的智能系统,不用再每次选择模型。
3️⃣AI跨本体组队!智源发布首个跨本体具身大小脑协作框架+开源具身大脑
新智元|阅读原文
3月29日,智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。
在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。具身大脑RoboBrain融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力。
开源链接:具身多模态大脑模型RoboBrain
- Github:https://github.com/FlagOpen/RoboBrain
- Gitee:FlagOpen/RoboBrain
- Huggingface:https://huggingface.co/BAAI/RoboBrain
为机器人操作任务设计的高质量异构数据集ShareRobot
- GitHub:https://github.com/FlagOpen/ShareRobot
- Gitee:FlagOpen/ShareRobot
- Huggingface:https://huggingface.co/datasets/BAAI/ShareRobot
对此,你怎么看?
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)