BigScience 国际开发团队已经启动了针对 1760 亿参数的开源人工智能语言模型的训练。
BigScience 主要培训刚刚开始💥 作为研究工具创建的大型语言模型🔬
模型:1760亿个参数📖https://t.co/7gz2Gibybx
数据:46 种语言📖https://t.co/EOgshEDrnw
集群:416 个 GPU – 低碳能源📖https://t.co/VA1u4OpnVr
关注直播👇
— BigScience 研究研讨会 (@BigscienceW),2022 年 3 月 15 日
该算法在这 46 种语言上进行了训练。 该模型在密集科学计算领域的法国发展与资源研究所的 Jean Zay 超级计算机上进行训练。 它基于 Nvidia V100 和 A100 视频加速器。 峰值工厂性能超过 28 petaflops。
Hugging Face 研究负责人 Dau Kiela 表示,培训过程将需要三到四个月。
据开发人员称,该项目旨在用于研究目的。 工程师说,来自 OpenAI、谷歌或微软等公司的专有语言模型表现出类似的问题行为,会产生有毒的言论、偏见和错误信息。 他们补充说,开源算法将帮助研究人员了解并解决这些问题。
“如果我们关心研究进展的民主化,并希望确保全世界都能使用这项技术,我们必须为此找到解决方案。 这正是大科学应该做的,”基拉说。
BigScience 开放项目汇集了来自世界各地的大约一千名开发人员,他们创建和维护用于训练语言模型的大型数据集。
回想一下,在一月份,OpenAI 宣布创建毒性较小的 GPT-3 版本。
2021 年 12 月,DeepMind 推出了具有 2800 亿个参数的语言模型。
10 月,微软和英伟达开发了一种算法,其大小是 GPT-3 的三倍。
在 Telegram 上订阅 ForkLog 新闻:ForkLog AI – 来自 AI 世界的所有新闻
在文本中发现错误? 选择它并按 CTRL+ENTER
内容搜集自网络,整理者:BTCover,如若侵权请联系站长,会尽快删除。