先上 “万恶之源”:Transformer

按机构分类
AI21 Labs
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2021-09 |
Jurassic-1 (J1) |
J1-Jumbo v1 (178B), |
|
|
|
J1-Large v1 (7.5B), |
|
|
|
|
|
J1-Grande v1 (17B) |
AI21 Labs |
[论文](https://uploads- |
|
|
|
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) |
|
|
|
|
|
, |
|
|
|
|
|
官方文档, |
|
|
|
|
|
[技术报告](https://uploads- |
|
|
|
|
|
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf) |
|
|
|
|
|
受限 |
|
|
|
|
|
Alibaba
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2019-08 |
StructBert |
structbert.en.large(340M), |
|
|
|
structroberta.en.large(355M), |
|
|
|
|
|
structbert.ch.large(330M) |
Alibaba Group Inc. |
|
|
|
|
论文, |
|
|
|
|
|
GitHub |
|
|
|
|
|
模型 |
|
|
|
|
|
Allen Institute for AI
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2018-02 |
ELMo |
Small(13.6M), |
|
|
|
Medium(28.0M), |
|
|
|
|
|
Original(93.6M) |
Allen Institute for AI & |
|
|
|
|
University of Washington |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
Amazon
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2022-03 |
DQ-BART |
与标准BART相比,参数减少了30倍 |
Cornell University & |
|
|
AWS AI Labs & |
|
|
|
|
|
University of Pennsylvania |
论文 |
|
|
|
|
Anthropic
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2021-12 |
Anthropic-LM |
Anthropic-LM v4-s3 (52B) |
Anthropic |
|
|
论文1, |
|
|
|
|
|
论文2 |
未开源 |
|
|
|
|
BAAI
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2021-06 |
Wu Dao 2.0 |
1.75T |
BAAI |
官网 |
|
模型 |
|
|
|
|
|
Baidu
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2019-05 |
ERNIE |
114M |
Baidu |
GitHub, |
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
BigScience
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2022-05 |
T0pp |
11B |
BigScience etc. |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2022-07 |
BLOOM |
176B |
BigScience |
论文 |
|
模型 |
|
|
|
|
|
2022-11 |
BLOOMZ |
176B |
BigScience etc. |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
Cohere
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2022-06 |
Cohere |
Cohere xlarge v20220609 (52.4B), |
|
|
|
Cohere large v20220720 (13.1B) , |
|
|
|
|
|
Cohere medium v20220720 (6.1B) , |
|
|
|
|
|
Cohere small v20220720 (410M) , |
|
|
|
|
|
Cohere xlarge v20221108 (52.4B), |
|
|
|
|
|
Cohere medium v20221108 (6.1B) |
Cohere |
官网 |
受限 |
|
|
DeepMind
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2021-07 |
AlphaFold |
21M |
DeepMind etc. |
|
|
[论文](https://www.deepmind.com/publications/highly-accurate-protein-structure- |
|
|
|
|
|
prediction-with-alphafold) |
|
|
|
|
|
2021-12 |
Gopher |
280B |
DeepMind |
论文, |
|
[官网](https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical- |
|
|
|
|
|
considerations-and-retrieval) |
未开源 |
|
|
|
|
2022-03 |
Chincilla |
70B |
DeepMind |
论文 |
|
未开源 |
|
|
|
|
|
2022-03 |
GopherCite |
280B |
Deepmind & |
|
|
University College London |
论文 |
|
|
|
|
2022-04 |
Flamingo |
80B (largest) |
Deepmind |
|
|
论文 |
[flamingo- |
|
|
|
|
mini模型](https://huggingface.co/dhansmair/flamingo-mini) |
|
|
|
|
|
2022-05 |
Gato |
1.2B |
Deepmind |
|
|
论文 |
|
|
|
|
|
2022-09 |
Sparrow |
70B |
Deepmind |
论文 |
|
EleutherAI
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2021-03 |
GPT-Neo |
5B, |
|
|
|
2.7B (XL) |
EleutherAI |
[论文](https://www.semanticscholar.org/paper/GPT- |
|
|
|
Neo%3A-Large-Scale-Autoregressive-Language-with-Black- |
|
|
|
|
|
Gao/7e5008713c404445dd8786753526f1a45b93de12) |
|
|
|
|
|
模型 |
|
|
|
|
|
2021-06 |
GPT-J |
6B |
EleutherAI |
|
|
博客 |
|
|
|
|
|
模型 |
|
|
|
|
|
2021-12 |
StableDiffusion |
890M |
LMU Munich & |
|
|
Stability.ai & |
|
|
|
|
|
Eleuther.ai |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
2022-04 |
GPT-NeoX |
20B |
EleutherAI |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
Google
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2018-10 |
BERT |
Base = 110M, |
|
|
|
Large = 340M |
Google AI Language |
论文 |
|
|
|
模型 |
|
|
|
|
|
2019-01 |
Transformer XL |
151M |
Carnegie Mellon University & |
|
|
Google Brain |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
2019-05 |
XLNet |
Base=117M, |
|
|
|
Large=360M |
Google AI Brain Team & |
|
|
|
|
Carnegie Mellon University |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
2019-09 |
ALBERT |
Base = 12M, |
|
|
|
Large = 18M, |
|
|
|
|
|
XLarge = 60M |
Google Research & |
|
|
|
|
Toyota Technological Institute at Chicago |
|
|
|
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2019-10 |
T5 |
11B |
Google |
论文 |
|
模型 |
|
|
|
|
|
2019-12 |
Pegasus |
Base = 223M, |
|
|
|
Large = 568M |
Imperial College London & |
|
|
|
|
Google Research |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
2020-03 |
ELECTRA |
Base = 110M, |
|
|
|
Large = 330M |
Google Brain & Stanford University |
|
|
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2020-07 |
BigBird |
取决于整体架构 |
Google Research |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2020-10 |
ViT |
86M(Base) to 632M (Huge) |
Google Research |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2021-01 |
Switch |
1T |
Google |
论文 |
|
模型 |
|
|
|
|
|
2021-06 |
Decision Transformers |
117M |
Google Brain & |
|
|
UC Berkeley & |
|
|
|
|
|
Facebook AI Research |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
2021-12 |
GLaM |
1.2T覆盖64个专业领域, |
|
|
|
但只有96B被激活用于推理 |
Google |
论文, |
|
|
|
[官方博客](https://ai.googleblog.com/2021/12/more-efficient-in-context-learning- |
|
|
|
|
|
with.html) |
|
|
|
|
|
2022-01 |
LAMDA |
137B |
Google |
论文, |
|
[官方博客](https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and- |
|
|
|
|
|
high.html) |
|
|
|
|
|
2022-04 |
PaLM |
540B |
Google Research |
|
|
论文, |
|
|
|
|
|
[官方博客](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling- |
|
|
|
|
|
to.html) |
未开源 |
|
|
|
|
2022-05 |
UL2 |
20B |
Google Research |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2022-06 |
Imagen |
2B |
Google Research |
论文, |
|
官网 |
|
|
|
|
|
2022-06 |
Minerva |
540B |
Google Research |
|
|
论文, |
|
|
|
|
|
[官网](https://ai.googleblog.com/2022/06/minerva-solving-quantitative- |
|
|
|
|
|
reasoning.html) |
|
|
|
|
|
2022-12 |
Flan-T5 |
11B |
Google |
论文 |
|
模型 |
|
|
|
|
|
Huggingface
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2019-10 |
DistilBERT |
66M |
Huggingface |
论文 |
|
模型 |
|
|
|
|
|
iFLYTEK
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2020-11 |
MacBert |
MacBERT-large, Chinese(324M), |
|
|
|
MacBERT-base, Chinese(102M) |
iFLYTEK AI Research & |
|
|
|
|
Harbin Institute of Technology |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
Meta (Facebook)
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2019-07 |
RoBERTa |
356M |
Facebook AI & |
|
|
University of Washington |
论文 |
|
|
|
|
模型 |
|
|
|
|
|
2019-10 |
BART |
比 BERT 多 10% |
Facebook AI |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2019-10 |
XLM-RoBERTa |
Base = 270M, |
|
|
|
Large = 550M |
Facebook AI |
论文 |
|
|
|
模型 |
|
|
|
|
|
2020-01 |
mBART |
与BART相同 |
Facebook AI Research |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2021-07 |
HTML |
400M |
Facebook AI & |
|
|
University of Washington |
论文 |
|
|
|
|
2022-01 |
CM3 |
13B (largest) |
Facebook AI Research |
|
|
论文 |
|
|
|
|
|
2022-03 |
SeeKer |
与基模型相同 |
Facebook AI Research & |
|
|
ETH Zürich |
论文, |
|
|
|
|
官网 |
|
|
|
|
|
2022-05 |
OPT |
175B, |
|
|
|
66B |
Meta AI |
论文, |
|
|
|
[官网](https://ai.facebook.com/blog/democratizing-access-to-large-scale- |
|
|
|
|
|
language-models-with-opt-175b/) |
|
|
|
|
|
模型 |
|
|
|
|
|
2022-08 |
BlenderBot3 |
175B |
Meta AI & |
|
|
Mila/McGill University |
论文 |
|
|
|
|
blenderbot-3B模型, |
|
|
|
|
|
模型 |
|
|
|
|
|
2022-11 |
Galatica |
120B |
Meta AI |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
Microsoft
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2019-03 |
MT-DNN |
330M |
Microsoft Research |
|
|
论文 |
[模型](https://github.com/namisan/mt- |
|
|
|
|
dnn) |
|
|
|
|
|
2019-05 |
UniLM |
340M |
Microsoft Research |
|
|
论文, |
|
|
|
|
|
GitHub |
|
|
|
|
|
模型 |
|
|
|
|
|
2019-10 |
DialoGPT |
1.5B |
Microsoft Corporation |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
2020-02 |
Turing NLG |
17B |
Microsoft |
[官方博客](https://www.microsoft.com/en- |
|
us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by- |
|
|
|
|
|
microsoft/) |
|
|
|
|
|
2021-03 |
Swin Transformer |
29M-197M |
Microsoft Research Asia |
|
|
GitHub , |
|
|
|
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
NVidia
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2019-09 |
Megatron-LM |
8.3B (GPT-like), |
|
|
|
3.9B (BERT-like) |
NVidia |
论文, |
|
|
|
GitHub |
|
|
|
|
|
2021-10 |
Megatron Turing NLG |
530B |
Microsoft & |
|
|
NVIDIA |
论文, |
|
|
|
|
[官方博客](https://www.microsoft.com/en-us/research/blog/using-deepspeed-and- |
|
|
|
|
|
megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most- |
|
|
|
|
|
powerful-generative-language-model/) |
未开源 |
|
|
|
|
2022-06 |
Global Context ViT |
90M |
NVidia |
|
|
论文 |
|
|
|
|
|
OpenAI
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2018-06 |
GPT |
117M |
OpenAI |
[论文](https://s3-us-west-2.amazonaws.com/openai- |
|
assets/research-covers/language- |
|
|
|
|
|
unsupervised/language_understanding_paper.pdf) |
|
|
|
|
|
模型 |
|
|
|
|
|
2019-02 |
GPT-2 |
1.5B |
OpenAI |
[论文](https://d4mucfpksywv.cloudfront.net/better- |
|
language-models/language_models_are_unsupervised_multitask_learners.pdf) |
|
|
|
|
|
模型 |
|
|
|
|
|
2020-05 |
GPT-3 |
GPT-3 davinci v1 (175B), |
|
|
|
GPT-3 curie v1 (6.7B), |
|
|
|
|
|
GPT-3 babbage v1 (1.3B), |
|
|
|
|
|
GPT-3 ada v1 (350M) |
OpenAI |
论文, |
|
|
|
GitHub |
受限 |
|
|
|
|
2021-01 |
DALL-E |
12B |
OpenAI |
论文, |
|
官方博客, |
|
|
|
|
|
Demo |
|
|
|
|
|
2021-02 |
CLIP |
未知 |
OpenAI |
论文, |
|
GitHub |
|
|
|
|
|
模型 |
|
|
|
|
|
2021-07 |
Codex |
Codex davinci v2 (Unknow), |
|
|
|
Codex davinci v1 (Unknow), |
|
|
|
|
|
Codex cushman v1 (Unknow) |
OpenAI |
论文 |
|
|
|
受限 |
|
|
|
|
|
2021-12 |
GLIDE |
12B |
OpenAI |
论文, |
|
Demo |
|
|
|
|
|
2022-01 |
InstructGPT |
InstructGPT davinci v2 (175B*), |
|
|
|
InstructGPT davinci v1 (175B*), |
|
|
|
|
|
InstructGPT curie v1 (6.7B*), |
|
|
|
|
|
InstructGPT babbage v1 (1.3B*), |
|
|
|
|
|
InstructGPT ada v1 (350M*) |
OpenAI |
|
|
|
|
论文, |
|
|
|
|
|
官网 |
受限 |
|
|
|
|
2022-04 |
DALL-E-2 |
3.5B |
OpenAI |
论文, |
|
官网 |
|
|
|
|
|
2022-10 |
GPT-3.5 |
175B |
OpenAI |
[官网](https://platform.openai.com/docs/model- |
|
index-for-researchers) |
未开源 |
|
|
|
|
2022-10 |
ChatGPT |
与 GPT3 相同 |
OpenAI |
官网 |
|
未开源 |
|
|
|
|
|
Salesforce
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2019-09 |
CTRL |
1.63B |
Salesforce Research |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
Tsinghua University
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2020-10 |
GLM |
130B |
Tsinghua University & |
|
|
Zhipu.AI |
论文, |
|
|
|
|
Demo |
|
|
|
|
|
10B版模型 |
|
|
|
|
|
UC Berkeley
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2021-06 |
Trajectory Transformers |
比 GPT 更小的架构 |
UC Berkeley |
|
|
论文 |
|
|
|
|
|
模型 |
|
|
|
|
|
Yandex
发布时间 |
模型名称 |
参数量 |
机构 |
相关链接 |
开源 |
2022-06 |
YaLM |
100B |
Yandex |
GitHub, |
|
[博客](https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt- |
|
|
|
|
|
like-neural-network-in-open-source-d1df53d0e9a6) |
|
|
|
|
|
模型 |
|
|
|
|
|
持续更新中 …
由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓

所有评论(0)