baichuan,应该是“百川”的拼音,目前开放的是7B 的模型baichuan-7B。
baichuan-7B 是由百川智能开发的一个开源非商用的大规模预训练语言模型,如果商用需要联系获得单独的许可。
baichuan-7B基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。
在多个数据集的评估中【比如,在高考数据集中】,在7B(6B)规模的模型中,baichuan-7B成绩排在第一。
本号持续跟踪开源开放大模型,欢迎关注本公众号获得一手数据和知识。此外,本号内容基本都围绕着大模型、AGI、AIGC、生成式AI、文生文、文生图、图像理解、强化学习、知识图谱、深度学习等等人工智能有关领域。欢迎关注本公众号。
基础信息
- baichuan-7B是基于变换器网络(Transformer)架构,7B参数
- 代码许可:Apache License 2.0,允许商用,相比GPL更宽松。
- 模型许可:baichuan-7B模型许可协议【https://huggingface.co/baichuan-inc/baichuan-7B/resolve/main/baichuan-7B%20%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE.pdf】 非商业用途可直接使用,商用的话需联系邮箱“opensource@baichuan-inc.com”以获得授权。
资料集合
代码仓库:Github 【https://github.com/baichuan-inc/baichuan-7B】模型仓库:HuggingFace 【https://huggingface.co/baichuan-inc/baichuan-7B】模型仓库:modelscope【https://modelscope.cn/models/baichuan-inc/baichuan-7B/】参数
模型下载
- HuggingFace 【https://huggingface.co/baichuan-inc/baichuan-7B】
- modelscope【https://modelscope.cn/models/baichuan-inc/baichuan-7B/】
训练数据
1.2T Tokens,没有其他明确的数据分布情况说明。原始数据包括开源的中英文数据和自行抓取的中文互联网数据,以及部分高质量知识性数据。
序号 | 名称 | 参数规模 | 数据规模 | 说明 |
1 | LLaMA | 7B,13B,30B,65B | 1.4T | Meta,代码开源,模型“泄露”,不可商用 |
2 | OPT | 6.7B,13B,30B,66B,175B |
|
|
3 | BLOOM | 176B |
|
|
4 | GALACTICA | 6.7B,30B,120B |
|
|
5 | Falcon | 7B,40B |
|
|
6 | MOSS | 16B |
|
|
7 | ChatGLM | 6B |
|
|
8 | StableLM | 3B,7B |
|
|
9 | baichuan | 7B | 1.2T | 开放,商用需授权 |
10 | Aquila | 7B,33B |
| 悟道·天鹰 |
11 | RedPajama | 3B,7B |
|
|
12 | GPT-NeoX | 20B | 800GB的The Pile数据集 |
|
13 | OpenLLaMA | 3B,7B,13B | 1T tokens |
|
本文依然是《迈向以人为本通用人工智能》的一份子,其他内容诸如:
百模大战V5:收录74个国产大模型,国产开源有进展但仍然非常弱
ChatGPT不仅把律师带入悬崖,还给“他爸”带来了麻烦
大模型时代,AI原生启航
语言≠知识:万字长文看语言通天塔的建成和神经网络大模型的固有缺陷——与Bing Chat关于苏东坡的对话实录
AGI开始使用工具,chatGPT开放插件系统
整理材料不易,请随手点赞、关注、转发、在看、打赏!