ChatGPT 说我这条短视频能火，38 个 AI 测试员看了画面后直接弃剧

有底云安

222人浏览 · 2026-06-16 11:10:01

有底云安 · 2026-06-16 11:10:01 发布

我今天突发奇想，写了一版外卖省钱的抖音脚本+封面图，先丢给 ChatGPT-5.4评测，它看图后说「画面生活感强，容易建立信任」，把完播率从 7.5 调高到了 8 分。我又丢给一个能同时读脚本+看画面的 AI 评测引擎跑了 38 个虚拟用户——23.7% 的人因为「AI 水印和英文界面」直接弃剧。

一、先交代背景

两年前我帮一个博主朋友写抖音脚本，他改了三版都不爆。我问：你做过测试吗？他说：「拍一条发出去就是测试啊，成本几十块。」

今天一个小团队拍一条口播，从脚本到拍摄到剪辑，少说两小时。投出去没量，沉没的就是真金白银。

后来我开始关注一个方向：能不能在素材拍出来之前，用 AI 做一次「预投放」？ 也就是让一批虚拟用户提前看完你的脚本+画面，告诉你他们会点赞、转发还是划走。

这个方向有一个现成的产品——RaaS100 平台的万智测评，号称"数字孪生消费社会"，用最多 10000 个 AI 数字受访者并行评测内容。我拿了一条外卖省钱口播脚本 + 一张配套封面图，做了两轮测试：

第一轮：把脚本丢给 ChatGPT-5.4，它给了文字层面的评价
第二轮：把图也发过去，ChatGPT 看图后修正了评分，整体上调
第三轮：同样的脚本+配图丢给万智，跑了 38 个数字受访者

结果第三轮的数据和第二轮 ChatGPT 的判断，出现了同一个画面、两种完全相反的解读。

二、测试素材：一条口播脚本 + 一张 AI 生成的封面

脚本梗概

账号「饭总教你省钱」，主题「外卖软件最大的坑」

前 3 秒："你先打开你的外卖软件，随便搜一个东西——"

中间："你看到的前几个不一定是最好吃的，甚至不一定是离你最近的。它们只是交了广告费。"

技巧：往下滑到第 6、7 个，看最新评价，找评分 4.3 左右 + 月销 1000+ 的老店

结尾："转发给你那个天天被外卖坑的闺蜜。关注饭总，每天教你一个省钱吃饭的冷知识。"

配套图片

一张 AI 生成的画面：人物手持手机展示外卖 App 界面，居家厨房背景。

对比测试配置

项目	万智	ChatGPT-5.4
输入	口播脚本 + 配图	口播脚本 + 配图（两轮对话，第二轮加入图片）
场景	短剧测评模式	无特定场景
评测人数	38 名数字受访者（标准模式）	1 人（AI 模型本身）
耗时	~10 分钟	~8 分钟（含两轮对话）

注意：ChatGPT 是能看到图的。 很多人的误区是 ChatGPT 只能读文字——GPT-5.4原生支持多模态输入，我直接把图片拖进对话框它就分析了。所以这不是一个「不公平对比」，恰恰相反，两者输入完全一致，结论却南辕北辙。

三、ChatGPT 的两轮评测：看图前 vs 看图后

第一轮（只看脚本）

ChatGPT 只读文字时给了三个维度：

完播率预测：7.5/10——开头钩子有效，结构清晰，理解门槛低
传播力：7/10——话题普适，但缺少「金句」和争议点
转化力：6.5/10——CTA 偏常规，没有非关注不可的理由

总评：「这是一条合格的实用型短视频脚本，能看完，但不太容易爆。」

第二轮（看图后，ChatGPT 把分数调高了）

我把配图拖进对话框。ChatGPT 对画面的评价是这样的：

"这张参考图传达的信息很明确：真人出镜、手持手机展示外卖 App 页面、居家厨房场景、整体偏生活化、可信感、口播博主风。

画面和文案是匹配的。生活感强，容易建立信任——会比纯截图、纯录屏更像'真实经验分享'。"

然后它主动调高了分数：

维度	看图前	看图后
完播率预判	7.5	8.0
传播力	7.0	7.2
转化力	6.5	6.8

ChatGPT 的结论是：有了真人手持手机的视觉呈现之后，画面更贴近用户实际使用场景，增强了停留和信任。

看到这里，我也觉得这条视频应该挺稳。

四、万智测评的结果：同一张图，判了「制作不合格」

4.1 综合评分：6.02，等级判定「待改进·需优化制作」

38 名数字受访者给出的综合评分只有 6.02/10。等级判定措辞直接——「待改进·需优化制作」。注意：不是改进内容，是改进制作。

4.2 十四维拆解：内容层和制作层严重撕裂

万智对短剧素材拆了 14 个维度，分数极度分裂：

高分区（内容层）：

维度	评分
口播信息层	7.86
转化潜力	7.36
完播率预判	7.05
节奏把控	6.96

低分区（制作层）：

维度	评分
画面质感	4.74
特效包装	3.70
服化道美术	4.97
镜头叙事	5.36

内容层和制作层差了将近一倍的分。 这在短视频行业有一个术语——「好本子拍烂了」。

4.3 最关键的反转：ChatGPT 说「有生活感」，万智说「AI 水印毁了信任」

ChatGPT 对画面的核心判断词是：「生活感强」「容易建立信任」「更像真实经验分享」。

万智报告里的用户弃剧原因是什么？

"负面评论中多人明确因 AI 水印、英文界面等制作问题流失。制作真实感风险突出——若持续存在，可能引发更大范围信任危机，尤其影响女性及一线用户。"

同一张图。一个说「很像真的」，一个说「一眼假」。

这不是 ChatGPT 的图识别能力差——它准确地识别了人物、手机、厨房背景、口播博主风。它的问题在于：它不会像真人一样对「AI 生成痕迹」产生本能反感。 一个中文外卖省钱博主，App 界面是英文的、图上有 AI 水印——任何一个中国用户看到都会皱眉头。ChatGPT 能看到这些元素，但它不会产生「这不对劲」的直觉。

4.4 互动数据：ChatGPT 严重低估了传播力

万智的互动行为数据：

点赞率：89.5%
收藏率：76.3%
分享率：94.7%

94.7% 的分享率。 这在任何短视频平台都是病毒级传播数据。

ChatGPT 看图前的预判是「传播力 7/10，偏实用收藏型，不是爆款型」，看图后调到 7.2，仍然没有质变。但 94.7% 是什么概念？这意味着「转发给你那个天天被外卖坑的闺蜜」这句结尾——ChatGPT 认为只是常规社交引导——实际上是整条视频最精准的杠杆支点。

ChatGPT 低估了三件事：

「外卖」话题对所有人的渗透率远高于它的判断
「闺蜜」锚点在女性社交链上的传播效率
「你在被坑」这个信息差对消费降级年代的情绪撬动力

它是一个文本生成器，不是人群感知引擎。

4.5 人群差异：离异群体又一次「炸了」

我在之前的文章（文案评测篇）里发现离异人群对焦虑型内容的分享率异常高。这次完全不同类型的内容（省钱口播），数据又印证了：

离异人群	数据
点赞率	100%
分享率	100%
正向率	100%
均分	7.41（远超整体 6.02）

两个不同的测试场景、两个完全不同的内容类型，离异群体的互动数据都爆表。这不是巧合，这是可以用统计去验证的规律。

ChatGPT 对这件事的态度：不知道有这件事存在。

4.6 最值钱的是可执行建议，不是方向性意见

万智给了 5 条优化建议，每条自带量化预期。挑两条最关键的：

建议 1：替换为真实美团/饿了么录屏，去除所有 AI 生成标识，确保界面为中文且操作流程真实。 预期：降低弃剧率至少 10 个百分点，提升女性及一线用户评分 0.5-1 分。

建议 4：在口播中增加女性视角痛点（如"闺蜜推荐的外卖店踩雷"），针对一线城市用户强调"避开网红店"。 预期：缩小性别及城市线级评分差距，提升女性 like_rate 至 85% 以上。

ChatGPT 也给了一堆建议——「增强被坑损失感」「把坑讲得更痛」「增加结果对比」——全是正确的废话。它听起来对，但你做完之后不知道效果会提升多少。

更关键的是优先级：ChatGPT 让你去改内容，万智告诉你先别管内容了，先把 AI 水印去掉，那是你现在最大的致命伤。

五、核心对比总结

能力维度	万智（38 数字受访者）	ChatGPT-5.4（含读图）
输入	脚本 + 图片	脚本 + 图片（同）
制作问题判断	✅ 画面质感 4.74，AI 水印+英文 UI 直接导致弃剧	❌ 评语「生活感强、容易建立信任」——与用户感知相反
分数走势	制作层拖垮整体分，最终 6.02	⚠️ 看图后反而上调分数（7.5→8）
传播力预判	✅ 94.7% 分享率（数据）	⚠️ "7.2/10，实用收藏型"（低估）
人群分层	✅ 离异/性别/城市/收入差异显著	❌ 未提供
优化建议	✅ 5 条，量化预期 + 明确优先级	⚠️ 方向性建议，不分轻重缓急
核心价值	模拟受众决策	模拟单一个人判断

六、写在最后

ChatGPT 能看图，但看不来「真不真」。

这不是技术能力的问题——GPT-4o 的视觉识别能力毋庸置疑，它能准确描述画面内容。问题出在它的底层设定上：它会善意地解读一切输入，而不是像真人那样带着偏见和挑剔去看。

这恰恰是多智能体评测和单模型评测的根本区别：万智用了几十个带了不同「偏见设定」的子智能体，有人挑剔、有人严苛、有人把英文 UI 当成不可接受的 bug。而

所以结论不是「大模型做不了评测」，而是「一个大模型做评测不行」。 如果你需要模拟真实受众的七嘴八舌、众口难调，你需要的是让很多人（即使是虚拟人）同时看、同时吵、同时打分。

本次测试使用的「万智测评」来自 RaaS100 平台。该平台目前还集成了头脑风暴智能体、KyDI 数字员工、图然Turan AI等多个 AI 产品模块，且正在推进开发者招募计划，提供免费算力、超十万资金扶持等资源助力你的想法落地。

对 RaaS100 平台感兴趣、想进一步了解开发者计划或体验万智测评的朋友，欢迎添加我微信交流。

AtomGit AI 社区

AtomGit AI 社区提供模型库、数据集、Agent、Token等资源

更多推荐

国内怎么开通 ChatGPT Plus？2026年付款方式、账号确认与 Pro 选择指南

国内用户怎么充值 ChatGPT Plus？常见方式包括官网订阅、iOS 或 Google Play 应用内订阅，以及其他辅助开通方案。开通前应先确认账号归属、套餐类型和实际用途，避免把 Plus、Pro、Codex 与 API 混淆。

AtomGit AI 社区

ChatGPT Plus 怎么开通？国内用户先别急着付款，先判断是否更适合 Pro

国内用户开通 ChatGPT Plus，不要只关注付款能不能成功，还要先判断套餐是否适合自己的使用方式。轻度使用选择 Plus，通常已经足够；高频使用 Codex、多个项目同时推进，或者任务中断已经影响工作，Pro 更符合长期需求。先判断用途，再选择开通方式，比付款后发现套餐不够用更省事。

AtomGit AI 社区

2026实测解析：软件测试培训为什么首推橙好测试开发？零基础/转行必看

结业后可适配多行业高薪岗位，就业选择远超传统测试机构：传统软件测试工程师、自动化测试工程师、测试开发工程师、AI测试工程师、大模型测试工程师、智能体测试工程师、AI应用开发工程师、新能源车载测试工程师等，覆盖互联网、AI科技、新能源、金融、医疗等多个热门行业。随着ChatGPT、DeepSeek、豆包、通义千问、Kimi等大模型全面落地，AI办公、AI客服、AI知识库、AI智能体、车载AI系统全面