摘要:对于非专业人士而言,设计高质量的演示文稿幻灯片颇具挑战性,原因在于需要在众多设计选项中做出抉择,过程复杂。尽管已有许多自动化工具能够提供布局和配色方案建议,但它们往往缺乏优化自身输出结果的能力,而这一点在实际工作流程中至关重要。为此,我们提出了DesignLab这一方案,它将设计过程拆分为两个角色:设计审核者,负责找出设计相关问题;设计贡献者,负责纠正这些问题。这种分工方式形成了一个迭代循环:审核者持续发现问题,贡献者则不断修正问题,使得幻灯片初稿在每次迭代中都能得到进一步打磨,最终达到此前难以企及的品质。我们针对这两个角色对大型语言模型进行了微调,并通过引入可控的干扰来模拟中间草稿,使设计审核者能够学习识别设计错误,设计贡献者能够学习如何修正错误。实验结果表明,DesignLab通过顺应设计过程的迭代特性,能够制作出更为精致、专业的幻灯片,其表现优于现有的设计生成方法,包括一款商业工具。Huggingface链接:Paper page,论文链接:2507.17202

研究背景和目的

研究背景

设计高质量的演示文稿幻灯片对于非专业人士来说是一项具有挑战性的任务。这主要是因为设计过程中涉及诸多复杂的选择,包括内容布局、配色方案、字体选择以及多媒体元素的整合等。尽管市面上存在许多自动化设计工具,能够为用户提供布局和配色方案的建议,但这些工具往往缺乏进一步优化和细化其输出结果的能力。在实际的设计工作流程中,持续的迭代和改进是至关重要的,然而这一点在许多自动化工具中并未得到充分的支持。

具体来说,现有的自动化设计工具通常只能提供静态的设计建议,而无法根据用户的反馈进行动态调整和优化。这种“一次性”的设计生成方式往往无法满足用户对高质量、个性化设计的需求。此外,对于非专业人士而言,识别设计中的问题并知道如何修正这些问题同样是一项艰巨的任务。因此,开发一种能够模拟真实设计流程、支持迭代检测和修正的自动化设计工具显得尤为重要。

研究目的

本研究旨在提出一种名为DesignLab的创新框架,通过模拟真实世界中的设计流程,将设计过程分解为两个角色:设计审核者和设计贡献者。设计审核者负责识别设计中的问题,而设计贡献者则负责修正这些问题。这种分工方式旨在实现一个迭代循环,其中审核者持续发现问题,贡献者不断修正问题,从而使得幻灯片初稿在每次迭代中都能得到进一步的打磨和优化,最终达到专业级的设计品质。通过这种方法,我们希望能够降低非专业人士设计高质量幻灯片的门槛,提高设计效率和质量。

研究方法

1. 角色分解与模型微调

DesignLab框架的核心在于将设计过程分解为两个独立的角色:设计审核者和设计贡献者。为了实现这两个角色,我们微调了大型语言模型(LLMs),使其能够分别执行审核和贡献的任务。具体来说,设计审核者模型被训练用来识别设计中的问题元素,并将这些元素标记为“待定”(TENTATIVE);而设计贡献者模型则被训练用来根据审核者的标记修正这些问题元素,恢复其原始设计或生成更合适的设计。

2. JSON表示与扰动模拟

为了使LLMs能够处理幻灯片设计,我们将幻灯片转换为结构化的JSON格式,捕获文本框、图像和布局等设计元素。由于真实的幻灯片设计通常只有最终版本,我们通过引入可控的扰动来模拟中间草稿。具体来说,我们对幻灯片的JSON表示进行随机扰动,如改变字体、移动元素位置和调整颜色等,从而生成一系列的“粗糙”草稿作为训练数据。

3. 迭代细化循环

在训练过程中,我们采用了一个迭代细化的循环。首先,设计审核者对扰动后的幻灯片进行审核,标记出需要改进的元素;然后,设计贡献者根据这些标记进行修正;修正后的幻灯片再次交给审核者进行审核,如此循环往复,直到没有元素被标记为“待定”或达到最大迭代次数为止。这种迭代细化的方式使得模型能够逐步学习到如何识别和修正设计中的问题。

4. 实验设置与评估

为了验证DesignLab框架的有效性,我们进行了一系列实验。实验数据集包括一个大规模的内部幻灯片数据集和一个手动创建的粗糙草稿数据集。我们比较了DesignLab与几种基线方法(包括单步改进方法、基于脚本的迭代改进方法和商业工具)在幻灯片细化任务上的表现。评估指标包括定性比较、定量比较以及用户研究。

研究结果

1. 定性比较

通过广泛的定性比较,我们发现DesignLab生成的细化幻灯片在质量上明显优于基线方法生成的幻灯片。具体来说,模板驱动的方法(如PowerPoint Designer)在无法找到合适模板时往往无法提供有效的改进建议;而基于LLM的方法(包括微调和非微调模型)则常常生成不完整的设计,需要进一步的用户输入才能适合最终展示。相比之下,DesignLab能够生成完整且高质量的设计,支持渐进式改进,并且能够处理各种完整程度的设计草稿。

2. 定量比较

在定量比较中,我们使用GPT-4o作为评估器,比较了不同方法生成的细化幻灯片在改进初始草稿方面的能力。实验结果表明,DesignLab在大多数情况下都优于基线方法,包括商业工具PowerPoint Designer。具体来说,在用户偏好调查中,DesignLab生成的幻灯片在与其他方法生成的幻灯片进行比较时,获得了更高的偏好率。

3. 用户研究

为了进一步验证DesignLab的有效性,我们进行了一项用户研究。在用户研究中,我们要求32名用户对45对幻灯片(每对幻灯片包括一个初始草稿和一个细化版本)进行评分,评分范围为1到10。研究结果表明,随着迭代次数的增加,幻灯片的审美评分也显著提高,这表明用户能够感知到通过迭代细化过程带来的明显改进。

研究局限

尽管DesignLab在幻灯片设计任务上表现出了显著的优势,但本研究仍存在一些局限性。具体来说:

1. 复杂数据结构的处理

当前模型在处理复杂数据结构(如表格和图形)时仍存在困难。这主要是因为这些结构在文本表示中较为复杂,难以被模型准确理解和处理。未来工作可以考虑使用更大的模型(如7B、14B和32B参数模型)来提高对复杂数据结构的理解能力。

2. 媒体内容的处理

由于当前模型不编码媒体内容(如图像和视频),因此无法直接解释这些内容的视觉属性及其颜色。这可能导致生成的设计在颜色搭配上与媒体内容不一致。未来工作可以考虑引入媒体内容的元信息(如内容标签和调色板)来解决这一问题。

未来研究方向

针对上述研究局限,未来工作可以从以下几个方面展开:

1. 引入更大的模型

为了处理复杂数据结构和媒体内容,未来工作可以考虑引入参数数量更大的模型。这些模型具有更强的表达能力和理解能力,能够更好地处理复杂的设计元素和媒体内容。

2. 多模态设计支持

未来工作可以探索将视觉语言模型(VLMs)引入DesignLab框架中,以实现对媒体内容的直接理解和处理。通过结合文本和视觉信息,多模态设计支持可以进一步提高设计的质量和个性化程度。

3. 更丰富的交互场景

当前DesignLab框架已经支持了一定程度的交互场景(如用户手动选择不满意的设计元素进行细化),未来工作可以进一步扩展这些交互场景。例如,可以引入更多的用户反馈机制(如评分和评论)来指导模型的迭代细化过程;或者允许用户在设计过程中动态调整设计目标和约束条件。

4. 跨领域设计应用

虽然本研究主要关注于演示文稿幻灯片的设计任务,但DesignLab框架的迭代检测和修正机制具有广泛的适用性。未来工作可以探索将该框架应用于其他设计领域(如海报设计、网页设计和用户界面设计等),以验证其跨领域设计的有效性和普适性。

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐