人工智能 LLM 革命前夜：一文读懂ChatGPT缘起的自然语言处理模型Transformer

对 ChatGPT 缘起的自然语言处理模型 Transformer，本文先梳理了该模型出现之前的几大主流语言模型，介绍了注意力机制，再基于此深入浅出讲解 Transformer，并在最后为大家解读一个基于 TensorFlow 架构的 Transformer 实现。

阿里技术

4550人浏览 · 2023-02-16 14:07:07

阿里技术 · 2023-02-16 14:07:07 发布

作者：钟超阿里集团大淘宝团队

[01] https://web.stanford.edu/~jurafsky/slp3/3.pdf

[02] https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

[03] 《自然语言处理：基于预训练模型的方法》车万翔等著

[04] https://cs.stanford.edu/people/karpathy/convnetjs/

[05] https://arxiv.org/abs/1706.03762

[06] https://arxiv.org/abs/1512.03385

[07] https://github.com/Kyubyong/transformer/

[08] http://jalammar.github.io/illustrated-transformer/

[09] https://towardsdatascience.com/this-is-how-to-train-better-transformer-models-d54191299978

[10] 《自然语言处理实战：预训练模型应用及其产品化》安库·A·帕特尔等著

[11] https://lilianweng.github.io/posts/2018-06-24-attention/

[12] https://github.com/lilianweng/transformer-tensorflow/

[13] 《基于深度学习的道路短期交通状态时空序列预测》崔建勋著

[14] https://www.zhihu.com/question/325839123

[15] https://luweikxy.gitbook.io/machine-learning-notes/self-attention-and-transformer

[16] 《Python 深度学习（第 2 版）》弗朗索瓦·肖莱著

[17] https://en.wikipedia.org/wiki/Attention_(machine_learning)

[18] https://zhuanlan.zhihu.com/p/410776234

[19] https://www.tensorflow.org/tensorboard/get_started

[20] https://paperswithcode.com/method/multi-head-attention

[21] https://zhuanlan.zhihu.com/p/48508221

[22] https://www.joshbelanich.com/self-attention-layer/

[23] https://learning.rasa.com/transformers/kvq/

[24] http://deeplearning.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/

[25] https://zhuanlan.zhihu.com/p/352898810

[26] https://towardsdatascience.com/beautifully-illustrated-nlp-models-from-rnn-to-transformer-80d69faf2109

[27] https://medium.com/analytics-vidhya/understanding-q-k-v-in-transformer-self-attention-9a5eddaa5960

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完