对于台湾或是香港的搜寻与 AI 翻译使用者,应该都会对于多数语言模型别说是分辨香港繁体或是台湾繁体,甚至简繁用语也完全不分的情况感到头痛,不过未来繁体中文使用者有望获得更好的 AI 繁体语言使用环境;联发科集团旗下所属的前瞻技术研究单位联发创新基地、中央研究院词库小组与国家教育研究院三方组成的研究团队宣布,将开放全球首款繁体中文语言大型模型到开源网站进行测试,此次释出的繁体中文大型模型以开源 BLOOM 模型为基础,相较当前可用的最大繁体中文模型大 1,000 倍,所使用的训练资料也高出 1,000 倍,当前开放外界下载,可用于包括问答系统、文字编修、广告文案生成、华语教学与客服系统。
目前开源的大型语言模型多以英文为优先最佳化对象,透过迁移学习的繁体中文模型在字词方面的效果与语意理解能力较为不足;中央研究院词库小组在 2019 年开发并公开 BERT 与 GPT-2 的繁体中文优化版本,但由于训练的资料量不足,相较主流大型语言模型的差距持续扩大。
,,皇冠足球投注平台(www.hg9988.vip)是皇冠足球投注平台,开放皇冠信用网代理申请、信用网会员开户,线上投注的官方平台。
▲联发科在此次合作当中负责训练硬体的建设
有鉴于开放原始码繁体中文大型语言模型的重要性与迫切性,联发创新基地、中央研究院词库小组与国家教育研究院三方在 2022 年 5 月展开合作计画,透过大型语言模型 BLOOM 的繁体中文模型进行再训练与优化,是当前首款具大型规模的繁体中文语言模型;连发科创新基地当前暂备一个手机网页介面公语言研究者试用;此模型系列的评量指标与参数达 176B 的模型预计在后续开放下载。
为实现具可用性的繁体中文大型语言模型,国家教育研究院提供大量高品质的繁体中文语料作为训练材料,连发科创新基地建构用于训练的硬体环境,并制定各种符合国际标准的繁体中文评量指标与蒐集更近期的语料,同时针对模型进行更有效读懂使用者的指示( prompt )的特别训练。而中央研究院词库小组则针对生成的文字是否带有偏见与敌意等不合适内容进行自动侦测与改正的研究与评估。最中三方结果皆达到当前开源繁体中文语言模型未有的成果,并相对避免具有偏见与敌意的内容。
转载说明:本文转载自USDT交易平台。
网友评论