支付宝开放平台-开发者社区——AI 日报「3 月 31 日」

谷歌Gemini 2.5 Pro，Grok 3，GPT-4o的原生图像功能，来自Grok、Perplexity和谷歌的Deep Research产品等等，让人惊呼：AI的又一波大爆发来了？可以说，全国AI发展看北京，北京AI发展看海淀。3月29日，智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain，可实现跨场景多任务

支付宝官方开放平台

722人浏览 · 2025-03-31 14:31:14

支付宝官方开放平台 · 2025-03-31 14:31:14 发布

1️⃣图灵奖得主预言中国成AI工业翘楚！海淀硬核AI先锋盛会，涌现更多未来成果

新智元｜阅读原文

谷歌Gemini 2.5 Pro，Grok 3，GPT-4o的原生图像功能，来自Grok、Perplexity和谷歌的Deep Research产品等等，让人惊呼：AI的又一波大爆发来了？然而，目前全球的聚光灯中心，已经远远不止集中在美国西海岸了。中国AI圈最近接连不断甩出的几枚核弹，已经让全世界都随之震动，引起山呼海啸一般的后续效应。而中国AI发展的奠基城市，毫无疑问就是北京。可以说，全国AI发展看北京，北京AI发展看海淀。

GPT-4o生图热度还未过去，论坛上，国产AI黑马再次祭出AI视频生成新版本——Vidu Q1。相较于Vidu 2.0，它在视频生成，高可控上再次迈向了一个全新的台阶。去年4月，Vidu首次在中关村论坛亮相，仅用一年的时间，已经完成了超进化。

就视频生成来说，未来发展方向非常广阔。时间空间智能，是未来一个很重要的走向，最终会通向人类的真实物理世界。

2️⃣吉卜力只是开胃小菜，GPT-4o一键抠图「换装换背景」！推理也初步显现

机器之心｜阅读原文

这几天，你要说 AI 圈最火的是哪个模型？OpenAI 的 GPT-4o 当仁不让。吉卜力风格的图像和视频在社交圈疯传，被玩出了花。之心用 GPT-4o 和可灵做出了吉卜力版《甄嬛传》全网播放超 20w。

除了一些口型和神情还有出入，人物形象可谓是超绝还原。X 平台上的网友利用 GPT-4o 和 Luma Ray 2，把《疯狂的麦克斯》动画版也做出来了。在网友探索 AI 动画生成的同时，还有一个功能被刨了个底朝天。在 OpenAI 的发布介绍中压根没提，但非常有用的功能 —— 画笔编辑。

在刷爆图像生成的同时，GPT-4o 还有了另一个重大发现：现在可以显示推理时间与思维链过程了。这不禁令人联想，难道 OpenAI 开始合并推理与非推理模型了？正如奥特曼上个月提到的那样，OpenAI 计划统一 o 系列与 GPT 系列模型，构建可以自主判断任务需求的智能系统，不用再每次选择模型。

3️⃣AI跨本体组队！智源发布首个跨本体具身大小脑协作框架+开源具身大脑

新智元｜阅读原文

3月29日，智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建具身智能开源统一生态加速场景应用提供底层技术支持。

在具身场景中，长程操作任务是机器人执行复杂任务的核心能力之一。具身大脑RoboBrain融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力，通过将抽象指令映射为具象动作序列，增强长程操作任务的能力。

开源链接：具身多模态大脑模型RoboBrain

Github：https://github.com/FlagOpen/RoboBrain
Gitee：FlagOpen/RoboBrain
Huggingface：https://huggingface.co/BAAI/RoboBrain

为机器人操作任务设计的高质量异构数据集ShareRobot

GitHub：https://github.com/FlagOpen/ShareRobot
Gitee：FlagOpen/ShareRobot
Huggingface：https://huggingface.co/datasets/BAAI/ShareRobot

对此，你怎么看？

支付宝/钉钉扫码加入支付宝开发者钉组织，可了解支付宝开放能力最新动态，订阅文档更新消息，和同城同行业交流业务，与支付宝产研沟通交流。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完