先上 “万恶之源”:Transformer
在这里插入图片描述


按机构分类

AI21 Labs

发布时间 模型名称 参数量 机构 相关链接 开源
2021-09 Jurassic-1 (J1) J1-Jumbo v1 (178B),
J1-Large v1 (7.5B),
J1-Grande v1 (17B) AI21 Labs [论文](https://uploads-
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf)
,
官方文档,
[技术报告](https://uploads-
ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf)
受限

Alibaba

发布时间 模型名称 参数量 机构 相关链接 开源
2019-08 StructBert structbert.en.large(340M),
structroberta.en.large(355M),
structbert.ch.large(330M) Alibaba Group Inc.
论文,
GitHub
模型

Allen Institute for AI

发布时间 模型名称 参数量 机构 相关链接 开源
2018-02 ELMo Small(13.6M),
Medium(28.0M),
Original(93.6M) Allen Institute for AI &
University of Washington 论文
模型

Amazon

发布时间 模型名称 参数量 机构 相关链接 开源
2022-03 DQ-BART 与标准BART相比,参数减少了30倍 Cornell University &
AWS AI Labs &
University of Pennsylvania 论文

Anthropic

发布时间 模型名称 参数量 机构 相关链接 开源
2021-12 Anthropic-LM Anthropic-LM v4-s3 (52B) Anthropic
论文1,
论文2 未开源

BAAI

发布时间 模型名称 参数量 机构 相关链接 开源
2021-06 Wu Dao 2.0 1.75T BAAI 官网
模型

Baidu

发布时间 模型名称 参数量 机构 相关链接 开源
2019-05 ERNIE 114M Baidu GitHub,
论文
模型

BigScience

发布时间 模型名称 参数量 机构 相关链接 开源
2022-05 T0pp 11B BigScience etc.
论文
模型
2022-07 BLOOM 176B BigScience 论文
模型
2022-11 BLOOMZ 176B BigScience etc.
论文
模型

Cohere

发布时间 模型名称 参数量 机构 相关链接 开源
2022-06 Cohere Cohere xlarge v20220609 (52.4B),
Cohere large v20220720 (13.1B) ,
Cohere medium v20220720 (6.1B) ,
Cohere small v20220720 (410M) ,
Cohere xlarge v20221108 (52.4B),
Cohere medium v20221108 (6.1B) Cohere 官网 受限

DeepMind

发布时间 模型名称 参数量 机构 相关链接 开源
2021-07 AlphaFold 21M DeepMind etc.
[论文](https://www.deepmind.com/publications/highly-accurate-protein-structure-
prediction-with-alphafold)
2021-12 Gopher 280B DeepMind 论文,
[官网](https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-
considerations-and-retrieval) 未开源
2022-03 Chincilla 70B DeepMind 论文
未开源
2022-03 GopherCite 280B Deepmind &
University College London 论文
2022-04 Flamingo 80B (largest) Deepmind
论文 [flamingo-
mini模型](https://huggingface.co/dhansmair/flamingo-mini)
2022-05 Gato 1.2B Deepmind
论文
2022-09 Sparrow 70B Deepmind 论文

EleutherAI

发布时间 模型名称 参数量 机构 相关链接 开源
2021-03 GPT-Neo 5B,
2.7B (XL) EleutherAI [论文](https://www.semanticscholar.org/paper/GPT-
Neo%3A-Large-Scale-Autoregressive-Language-with-Black-
Gao/7e5008713c404445dd8786753526f1a45b93de12)
模型
2021-06 GPT-J 6B EleutherAI
博客
模型
2021-12 StableDiffusion 890M LMU Munich &
Stability.ai &
Eleuther.ai 论文
模型
2022-04 GPT-NeoX 20B EleutherAI
论文
模型

Google

发布时间 模型名称 参数量 机构 相关链接 开源
2018-10 BERT Base = 110M,
Large = 340M Google AI Language 论文
模型
2019-01 Transformer XL 151M Carnegie Mellon University &
Google Brain 论文
模型
2019-05 XLNet Base=117M,
Large=360M Google AI Brain Team &
Carnegie Mellon University 论文
模型
2019-09 ALBERT Base = 12M,
Large = 18M,
XLarge = 60M Google Research &
Toyota Technological Institute at Chicago
论文
模型
2019-10 T5 11B Google 论文
模型
2019-12 Pegasus Base = 223M,
Large = 568M Imperial College London &
Google Research 论文
模型
2020-03 ELECTRA Base = 110M,
Large = 330M Google Brain & Stanford University
论文
模型
2020-07 BigBird 取决于整体架构 Google Research
论文
模型
2020-10 ViT 86M(Base) to 632M (Huge) Google Research
论文
模型
2021-01 Switch 1T Google 论文
模型
2021-06 Decision Transformers 117M Google Brain &
UC Berkeley &
Facebook AI Research 论文
模型
2021-12 GLaM 1.2T覆盖64个专业领域,
但只有96B被激活用于推理 Google 论文,
[官方博客](https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-
with.html)
2022-01 LAMDA 137B Google 论文,
[官方博客](https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-
high.html)
2022-04 PaLM 540B Google Research
论文,
[官方博客](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-
to.html) 未开源
2022-05 UL2 20B Google Research
论文
模型
2022-06 Imagen 2B Google Research 论文,
官网
2022-06 Minerva 540B Google Research
论文,
[官网](https://ai.googleblog.com/2022/06/minerva-solving-quantitative-
reasoning.html)
2022-12 Flan-T5 11B Google 论文
模型

Huggingface

发布时间 模型名称 参数量 机构 相关链接 开源
2019-10 DistilBERT 66M Huggingface 论文
模型

iFLYTEK

发布时间 模型名称 参数量 机构 相关链接 开源
2020-11 MacBert MacBERT-large, Chinese(324M),
MacBERT-base, Chinese(102M) iFLYTEK AI Research &
Harbin Institute of Technology 论文
模型

Meta (Facebook)

发布时间 模型名称 参数量 机构 相关链接 开源
2019-07 RoBERTa 356M Facebook AI &
University of Washington 论文
模型
2019-10 BART 比 BERT 多 10% Facebook AI
论文
模型
2019-10 XLM-RoBERTa Base = 270M,
Large = 550M Facebook AI 论文
模型
2020-01 mBART 与BART相同 Facebook AI Research
论文
模型
2021-07 HTML 400M Facebook AI &
University of Washington 论文
2022-01 CM3 13B (largest) Facebook AI Research
论文
2022-03 SeeKer 与基模型相同 Facebook AI Research &
ETH Zürich 论文,
官网
2022-05 OPT 175B,
66B Meta AI 论文,
[官网](https://ai.facebook.com/blog/democratizing-access-to-large-scale-
language-models-with-opt-175b/)
模型
2022-08 BlenderBot3 175B Meta AI &
Mila/McGill University 论文
blenderbot-3B模型,
模型
2022-11 Galatica 120B Meta AI
论文
模型

Microsoft

发布时间 模型名称 参数量 机构 相关链接 开源
2019-03 MT-DNN 330M Microsoft Research
论文 [模型](https://github.com/namisan/mt-
dnn)
2019-05 UniLM 340M Microsoft Research
论文,
GitHub
模型
2019-10 DialoGPT 1.5B Microsoft Corporation
论文
模型
2020-02 Turing NLG 17B Microsoft [官方博客](https://www.microsoft.com/en-
us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-
microsoft/)
2021-03 Swin Transformer 29M-197M Microsoft Research Asia
GitHub ,
论文
模型

NVidia

发布时间 模型名称 参数量 机构 相关链接 开源
2019-09 Megatron-LM 8.3B (GPT-like),
3.9B (BERT-like) NVidia 论文,
GitHub
2021-10 Megatron Turing NLG 530B Microsoft &
NVIDIA 论文,
[官方博客](https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-
megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-
powerful-generative-language-model/) 未开源
2022-06 Global Context ViT 90M NVidia
论文

OpenAI

发布时间 模型名称 参数量 机构 相关链接 开源
2018-06 GPT 117M OpenAI [论文](https://s3-us-west-2.amazonaws.com/openai-
assets/research-covers/language-
unsupervised/language_understanding_paper.pdf)
模型
2019-02 GPT-2 1.5B OpenAI [论文](https://d4mucfpksywv.cloudfront.net/better-
language-models/language_models_are_unsupervised_multitask_learners.pdf)
模型
2020-05 GPT-3 GPT-3 davinci v1 (175B),
GPT-3 curie v1 (6.7B),
GPT-3 babbage v1 (1.3B),
GPT-3 ada v1 (350M) OpenAI 论文,
GitHub 受限
2021-01 DALL-E 12B OpenAI 论文,
官方博客,
Demo
2021-02 CLIP 未知 OpenAI 论文,
GitHub
模型
2021-07 Codex Codex davinci v2 (Unknow),
Codex davinci v1 (Unknow),
Codex cushman v1 (Unknow) OpenAI 论文
受限
2021-12 GLIDE 12B OpenAI 论文,
Demo
2022-01 InstructGPT InstructGPT davinci v2 (175B*),
InstructGPT davinci v1 (175B*),
InstructGPT curie v1 (6.7B*),
InstructGPT babbage v1 (1.3B*),
InstructGPT ada v1 (350M*) OpenAI
论文,
官网 受限
2022-04 DALL-E-2 3.5B OpenAI 论文,
官网
2022-10 GPT-3.5 175B OpenAI [官网](https://platform.openai.com/docs/model-
index-for-researchers) 未开源
2022-10 ChatGPT 与 GPT3 相同 OpenAI 官网
未开源

Salesforce

发布时间 模型名称 参数量 机构 相关链接 开源
2019-09 CTRL 1.63B Salesforce Research
论文
模型

Tsinghua University

发布时间 模型名称 参数量 机构 相关链接 开源
2020-10 GLM 130B Tsinghua University &
Zhipu.AI 论文,
Demo
10B版模型

UC Berkeley

发布时间 模型名称 参数量 机构 相关链接 开源
2021-06 Trajectory Transformers 比 GPT 更小的架构 UC Berkeley
论文
模型

Yandex

发布时间 模型名称 参数量 机构 相关链接 开源
2022-06 YaLM 100B Yandex GitHub,
[博客](https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt-
like-neural-network-in-open-source-d1df53d0e9a6)
模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐