【山东女子学院毕业论文】基于生成对抗网络的多模态检索研究

毕设指导Martin

1013人浏览 · 2024-12-20 20:52:35

毕设指导Martin · 2024-12-20 20:52:35 发布

注：仅展示部分文档内容和系统截图，需要完整的视频、代码、文章和安装调试环境请私信up主。

摘要

近年来，随着深度学习技术的发展，人们对于多模态数据检索的研究和应用越来越受到关注。然而，多模态数据的特点和其间的异质性导致多模态检索面临诸多挑战。

针对这个问题，本文提出了一种基于生成对抗网络的多模态检索方法，该方法能够自动编码多种类型的数据，并在编码空间中学习到它们的共性。本文的方法主要包括两个阶段：特征提取和多模态匹配。在第一阶段，我们使用卷积神经网络、循环神经网络等深度学习模型，对图像、音频、文本等多种类型的数据进行特征提取。为了能够将这些不同类型的特征结合起来，我们采用了一个多任务学习的策略：对于每个类型的数据，调整特征提取网络，使其最小化各自特征与标签之间的误差。通过这种方式，我们获得了每个数据类型的低维特征表示在第二阶段，我们使用生成对抗网络进行多模态匹配。GAN是一种新颖的深度学习模型，包含一个生成器和一个判别器。生成器可以用来合成具有多模态的数据，判别器则可以用来区分合成的数据和实际数据。

本文的贡献在于：提出了一种新颖的方法，它能够将不同类型的特征结合起来，优化匹配性能；采用了JOG以增强多模态匹配的鲁棒性；在多个数据集上进行了广泛的实验以验证方法的有效性。

关键词：生成对抗网络 (GAN)多模态；图像检索；文本检索

1.3 存在的问题

数据不平衡：GAN需要大量的数据来训练，但是不同模态数据的数量可能不平衡，这会影响GAN的训练效果[5]。

训练不稳定：GAN的训练过程是一个博弈过程，容易出现训练不稳定的情况，导致生成器和判别器之间的平衡难以达到。

模态转换困难：GAN可以将一个模态转换为另一个模态，但是不同模态之间的转换可能存在困难，如语音转文本、图像转语音等。

模态融合难度大：GAN可以生成多模态数据，但是将多个模态数据融合在一起可能存在困难，如文本、图像和音频的融合。

数据质量问题：GAN的生成结果受到数据质量的影响，如果训练数据中存在噪声或错误，生成结果也会存在相应的问题。

2 相关理论

2.1 理论介绍

GAN是一种深度学习模型，由一个生成器和一个判别器组成。生成器尝试生成与真实数据相似的新数据，而判别器则尝试区分真实数据和生成数据。两者通过训练不断优化，最终达到平衡状态，生成器可以生成与真实数据非常接近的假数据[6]。GAN是一种生成式深度学习模型。它由一个生成器网络和一个判别器网络组成，通过不断博弈的过程来提高生成器网络的生成能力。GAN 模型可以应用于图像、音频和自然语言等领域的生成任务，并在诸多任务上取得了优异的效果。GAN 模型的训练过程中，生成器进行尝试生成与真实样本相似的样本，判别器则是进行尽可能准确地区分真实样本和生成样本。过程类似于游戏，生成器模拟出假冒的货物，而判别器则扮演着市场监管者的角色，检测货物是否真实。随着时间的推移，生成器将会变得越来越擅长制造逼真的假货，而判别器也将变得越来越擅长鉴别商品的真伪。

在多模态融合中，使用GAN的方法是将不同模态的数据分别输入到不同的生成器中，每个生成器都生成与该模态对应的假数据。然后将这些假数据与真实数据一起输入到一个判别器中，判别器需要同时评估它们的真实性和整体的一致性。生成器和判别器将交替训练，以达到最佳效果。

利用GAN进行多模态融合的好处是，它可以克服传统方法中的一些限制。例如，传统方法可能要人工设计特征或采用复杂的数学模型来进行判别，使用GAN可以自动提取数据中的信息，从而减少了人工操作。通过同时训练一个生成器和一个判别器来学习数据的分布信息。语义对齐是将不同语言之间的句子进行匹配的过程，使得它们在语义上具有一致性。基于GAN的语义对齐可以利用GAN的生成器和判别器来学习两种不同语言之间的映射关系。

以下是基于GAN的语义对齐的步骤：

1、利用机器翻译模型将句子从源语言翻译成目标语言，并且对翻译结果进行评价[7]。

2、将源语言句子和目标语言句子作为GAN的输入。

3、生成器将源语言句子转换成目标语言句子，并与真实的目标语言句子进行比较。

4、判别器评估生成器的输出是否能够欺骗它，即生成的目标语言句子与真实的目标语言句子之间的差异是否在可接受范围之内。

5、根据判别器的反馈，更新生成器的权重参数，使其能够生成更加准确的目标语言句子。

重复步骤3到5，直到生成器能够产生与真实目标语言句。

2.2 相关模型

基于生成对抗网络的多模态检索相关模型可以用于处理关于图像和文本的多模态数据，该领域目前正受到越来越多的关注。以下是几种基于GAN的多模态检索相关模型：

StackGAN++：这是一种基于GAN的图像合成模型，能够生成具有高度逼真性质的图像，并且能够接受文本描述作为输入条件。它可以生成与给定文本描述相符的图像。

DALL-E：这是duTuAi研究人员最近提出的一种新型多模态生成模型，它可以产生与自然语言描述相符的图像。不仅如此，还能理解一些常见的图像概念，例如“一个蓝色的小玻璃球”。

AttnGAN：这是一种利用注意力机制的图像生成模型，可以从文本描述中生成高分辨率、多样化的图像。它采用了多级注意力机制，使模型能够更好地关注文本描述中的重要信息。

CLIP+VAE：这是一种结合了变分自编码器（VAE）和视觉-语言编码器（CLIP）的多模态检索模型。它能够将图像和文本嵌入到同一个向量空间，并使用VAE对其进行。

3 模型分析

3.1 模型分析

GAN 模型的一个重要的应用就是图像生成。通过利用 GAN 模型对数据集进行监督学习，可以生成高质量的图片，这些图片既可以用于艺术创作，也可以应用于计算机辅助设计、虚拟现实等领域。

GAN 模型也有一些缺点，例如训练过程的不稳定性、生成样本的多样性不足等问题。为了解决这些问题，研究者们提出了多种改进方法，如 WGAN、CGAN、Pix2Pix 等。这些改进方法在一定程度上解决了 GAN 模型的缺陷，并推动了深度学习领下深入研究 GAN 模型的发展与应用。

其中，wGAN（wasserstein GAN）是一种基于 wasserstein 距离的 GAN 改进方法，通过将损失函数从 js 散度（jensen-shannon divergence）改为 wasserstein 距离来解决训练过程不稳定的问题，并达到更好的生成效果。

CGAN（conditional GAN）则是一种条件 GAN 模型，它可以根据给定的条件信息生成对应的样本，例如生成特定类别的图片或根据给定的文本描述生成相应的图像。而 pix2pix 则是一种基于条件 GAN 的图像转换模型，可以实现图像风格转移、语义标记转换等任务。

图3-1 CGAN模型算法流程

CGAN 的创新在于通过给每个判别器和生成器提供类标签来调节判别器和

生成器。如图3-1所示，CGAN将额外信息y提供给鉴别器和生成器。应该注意的是，在与编码的z和编码的x连接之前，y通常在生成器和鉴别器内部进行编码。在原始工作的 MNIST 实验中，z和y分别映射到层大小为 50和500 的隐藏层。通过这样做，CGAN 增强了判别器的判别能力，其中 x 和 y 受 z 制约,受益于额外编码的 y 信息，CGAN 不仅能够处理单模态图像数据集，还能够处理多模态数据集，例如 Flickr，其中包含标记的图像数据及其相关的用户生成的元数据，即特别是用户标签[8]。

公式3-1

其中 V(D,G) 是CGAN的目标，只是鉴别器不将y作为输入，是互信息。使用SVHN和CelebA对InfoGAN进行了实验。所有数据集共享相同的训练设置，其中使用了Adam优化器并应用了BN层。泄漏率为0.1的Leaky ReLU应用于鉴别器，而ReLU用于生成器。D的学习速率设置为2×10-4，而g的学习速率设置为1×10-3，λ设置为1。

我们认为模型的多样性非常有限，因为除了最后一层，D和Q的参数是彼此共享的。

除了以上提到的改进方法，还有许多其他的 GAN 变体和应用场景，如 cycleGAN、starGAN、styleGAN 等，这些模型不断推动着图像生成、视频生成、3d 建模等领域的发展。

同时也需要注意到 GAN 模型存在的隐私泄露问题，因为生成器网络可能会学习到数据集中的敏感信息，导致生成出的样本存在潜在隐私泄露风险。

表3-1 改进方法的优缺点表

方法	优点	缺点
传统特征提取	直观易懂，可解释	抽象特征表示困难
基于深度学习的特征提取	自适应，性能高	需要大量的数据和计算量
加权融合	可解释性强	忽略特征之间的耦合关系
双线性池化	捕捉跨模态相关性	参数数量大
基于内积的损失函数	更加有效	容易过度拟合
其他损失函数	考虑多种因素	计算复杂度大

4 实验

4.1 实验设置

为了进行基于生成对抗网络的多模态检索实验，需要涉及到以下方面的设置：

数据集选择

首先需要选择一个数据集，该数据集应该包含至少两种不同的模态数据（如图像、文本、音频等）。

基于生成对抗网络（Generative Adversarial Networks，gans）的多模态检索（Multimodal Retrieval）可采用以下几个数据集进行实验：

COCO数据集（Microsoft Common Objects in Context）：该数据集包含超过330k张图像和超过2.5万个关键词注释，可以用于图像检索任务，同时也可以与文本数据进行融合，实现多模态检索。

Flickr8k数据集：该数据集包含8k张图像，每张图像附带5个不同的文本描述，可以用于图像检索任务，同时也可以与文本数据进行融合，实现多模态检索。

实验流程

数据预处理：将选定的数据集进行处理，包括读取图片、文本等数据，并对其进行相应的预处理，例如图像尺寸调整、文本分词等。

训练GAN模型：使用选定的GAN模型对数据集进行训练，以获得生成器和判别器模型。

特征提取：利用训练好的生成器模型对数据集中每个样本进行特征提取，得到每个样本的低维向量表示。

检索实验：在检索任务中，给定一个查询样本，需要从数据集中找到与之相关的其他样本。具体操作是将查询样本的低维向量表示与数据集中所有样本的低维向量表示进行比较，选取最相关的几个样本作为结果。

4.2 实验过程

在基于生成对抗网络（GAN）的多模态检索方法中，特征提取阶段是非常重要的一部分，它决定了模型的特征表示能力和模型性能的上限。本文详细介绍了基于GAN的多模态检索方法的特征提取阶段。

在特征提取阶段，我们采用了卷积神经网络（CNN）和循环神经网络（RNN）来分别提取视觉和文本模态中的特征[12]。我们选择ResNet18作为视觉特征提取器，选择GRU作为文本特征提取器。两个特征提取器的输出都为512维的特征向量。

对于视觉模态的特征提取，ResNet18是一个非常有效的卷积神经网络，它在ImageNet数据集上取得了非常好的性能。我们在ResNet18的最后一层去掉全连接层，并保留最后一个卷积层的输出。这样可以得到一个14x14x512的特征图，我们采用平均池化将其压缩成512维的特征向量作为视觉模态的特征表示。

对于文本模态的特征提取用GRU作为文本特征提取器。我们使用了预训练的GloVe嵌入，将文本序列转换成固定长度的词向量序列。GRU的输出是最后一个时刻的输出状态，我们将其压缩成512维的特征向量作为文本模态的特征表示。需要注意的是，为了处理不同长度的序列，我们使用了序列填充和截断的方法。我们将所有文本语句填充到相同的长度，以便能够一起进行批量处理，这在神经网络的训练中是必要的。

在特征提取阶段，我们的目标是从多模态数据中提取出能够表示不同模态之间相关性的特征。因此，我们在该阶段使用视觉和文本数据的双模态特征来训练GNN，并利用GNN来学习视觉和文本模态之间的交互关系。在GNN中，我们采用了元路径网络（Meta-Path Network），以表示不同模态之间的关系。通过这种方式，我们可以将多模态数据编码成一组低维特征向量，从而更方便地进行下一步的多模态匹配。总之，在基于GAN的多模态检索方法中的特征提取阶段，我们采用了CNN和RNN的特征提取器来分别提取视觉和文本模态的特征，并采用元路径网络来建模不同模态之间的交互关系。通过这种方式，我们能够得到能够表示多模态数据之间复杂关系的低维特征向量[13]，为下一步的联合正交性正则化GAN阶段提供了基础。

采用视觉模态特征提取器（ResNet18）和文本模态特征提取器（GRU）。vis_input和cap_input分别是视觉和文本模态输入，它们都是torch.Tensor类型的输入数据。vis_len和cap_len是视觉和文本输入序列的长度。在文本特征提取器中，我们使用了pack和pad的技巧来处理不同长度的序列。

该代码输出视觉和文本模态的特征向量，用于后面的元路径网络的建模和GNN的训练。

4.3 联合正交性正则化实验

在基于GAN的多模态检索方法中，联合正交性正则化GAN是一个重要的阶段，主要用于将不同模态的特征编码到同一空间中，以便进行多模态匹配。在本节中，我们将介绍联合正交性正则化GAN的实现细节。我们在 MNIST上试验了CGAN。对于 MNIST 数据集，该模型使用随机梯度下降进行训练，小批量大小为50，初始学习率为 0.01，以指数方式下降到 1×10−6，衰减因子设置为 1.008。生成器和判别器都以 0.5 的概率使用了 Dropout。Momentum 的初始值为 0.5，最后增加到 0.7。类标签被编码为one-hot向量并馈送到G和D。在其他的相关实验 YFCC 100M 实验方面，训练超参数与MNIST实验中的设置相同。

GAN是一种流行的深度学习方法，主要是用于生成高质量的图像或其他数据，用它作为联合正交性正则化的框架。GAN中的生成器用于将不同模态的特征编码到同一空间中，判别器用于鼓励不同模态之间的特征在此空间中交互，并保持原始特征分布的相似度。

Knn-SVM DNN微调资源网

准确度（%）51.4 70.1 81.6 92.8

精密度（%）52.3 69.8 81.6 92.8

召回率（%）50.6 70.4 81.6 92.8

F1得分0.517 0.702 0.816 0.928

该场景突出了其作为物联网和IIoT数据中网络安全预测的有用工具的潜力。

注：仅展示部分文档内容和系统截图，需要完整的视频、代码、文章和安装调试环境请私信up主。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐