号称 " 史上最强的开源大语言模型 " 出现了。
它叫Falcon(猎鹰),参数 400 亿,在 1 万亿高质量 token 上进行了训练。最终性能超越 650 亿的 LLaMA,以及 MPT、Redpajama 等现有所有开源模型。
一举登顶 HuggingFace OpenLLM 全球榜单:除了以上成绩,Falcon 还可以只用到 GPT-3 75% 的训练预算,性能就显著超越 GPT-3,且推理阶段的计算也只需 GPT-3 的 1/5。据悉,这只半路杀出来的 " 猎鹰 " 来自阿联酋阿布扎比技术创新研究所 ( TII ) 。有意思的是,作为一个开源模型,TII 在 Falcon 上推出了一个相当特别的授权许可证要求:
(相关资料图)
可以商业使用,但如果用它产生的收益超过了 100 万美元,就要被收取10%的授权费。
一时之间,争议满满。
史上最强开源 LLM
据介绍,Falcon 属于自回归解码器模型。
它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。
—— Falcon 宣称它 " 特别注重数据质量 ",从公网上抓取内容构建好 Falcon 的初始预训练数据集后,再使用 CommonCrawl 转储,进行大量过滤(包括删除机器生成的文本和成人内容)并消除重复数据,最终得到一个由近 5 万亿个 token 组成的庞大预训练数据集。
为了扩大 Falcon 的能力,该数据集随后又加进了很多精选语料,包括研究论文和社交媒体对话等内容。
除了数据把关,作者还对 Falcon 的架构进行了优化以提升性能,但细节没有透露,相关论文将很快发布。
据悉,Falcon 一共耗费两个月,在 AWS 的384 个 GPU上训练而成。
最终,Falcon 一共包含 4 个版本:Falcon-40B:在 1 万亿 token 上进行训练,并使用精选语料库进行了增强;主要接受英语、德语、西班牙语、法语的训练,不会中文。
Falcon-40B-Instruct:在 Baize 上进行了微调,使用 FlashAttention 和多查询对推理架构进行了优化,是一个即用型聊天模型。
Falcon-7B:参数 70 亿,在 1.5 万亿 token 上进行了训练,作为一个原始的预训练模型,还需要用户针对大多数用例进一步微调。
Falcon-RW-7B:参数 70 亿,在 3500 亿 token 上进行训练,该模型旨在用作 " 研究神器 ",单独研究各种在网络数据进行训练的影响。
开源许可证引争议
Falcon 作为开源模型,已公开源代码和模型权重,可供研究和商业使用。
这对业界来说是一个好消息,毕竟像 Meta 的羊驼家族都只能用于研究目的,且还得填表格申请才行,很是麻烦。
但 Falcon 还是引起了争议。
这主要是因为它那 " 超过 100 万美元的任何商业应用都要收 10% 的授权费 " 的许可证要求。
据悉,该许可证部分基于Apache License 2.0 协议,该协议对商业应用友好,使用者修改代码只需满足相关需求即可将新作品作为开源或商业产品发布或销售。
有不少网友认为,既然 Falcon 宣称开源,还要收费,就违背了 Apache License Version 2.0 的宗旨,不属于真正的开源。并有人称这是一种 " 有损 Apache 软件基金会来之不易的名誉 " 的做法。有网友已经跑到 TII 的官方账号下 " 讨要说法 ":你自己能解释一下这是如何符合 " 开源 " 的定义吗?
目前,官方并没有回复。你认为这种做法究竟算不算开源呢?
参考链接:
[ 1 ] https://falconllm.tii.ae/
[ 2 ] https://twitter.com/ItakGol/status/1662149041831002138
[ 3 ] https://twitter.com/TIIuae/status/1662159306588815375
标签:
上一篇 : 【环球新视野】孙颖莎直言决赛没失败者,陈梦大度,再次祝贺莎莎,眼神难掩失落
下一篇 : 最后一页
3月16日,盛和资源(600392)副总经理毛韶春、黄厚兵,财务总监夏兰田,董秘郭晓雷,通过上交所集中竞价交...
2022年3月15日,这是继1983年以来的第40个国际消费者权益日。中消协组织围绕共促消费公平消费维权年主题...
首批金控牌照的归属出炉,两家公司拿到许可证。3月17日,央行发布公告称,已批准中国中信金融控股有限公...
时隔半月之久,西宁市城北区逐步推动复工复产,往日的生机活力被渐渐寻回,牛肉面红油飘香、包子铺炊烟...
音乐是我生活的一部分,是我的梦想,也是我的事业。英国音乐人亚当(Adam)告诉记者,在中国的十几年里,...
Copyright © 2015-2022 亚太舞蹈网版权所有 备案号:沪ICP备2020036824号-11 联系邮箱: 562 66 29@qq.com