摄影/王若朴
国科会今日(6/14)揭露台版可信任AI对话引擎(TAIDE)计画第一阶段成果,TAIDE模型以LLaMA为基础、以中文资料微调而成,目前版本为70亿参数,可执行自动摘要、翻译、写信、写文章等4大任务。接下来,TAIDE计画还将经过3阶段发展,包括130亿参数大模型阶段、具备阻绝不适当回答能力的可信任阶段,以及多轮问答阶段。今年,国科会还将以商用授权的LLM为基础,来打造国产小型企业版模型,来供商业使用。
用繁中资料打造台版生成式AI,同时建立可信任AI验证机制
今年2月13日,国科会主委吴政忠就指出,台湾要有自己的大型语言模型(LLM)。於是,TAIDE计画随之展开,集结国内学术团队和国科会辖下机构,由阳明交大应数系教授李育杰担任计画负责人,来统筹TAIDE开发工作。李育杰表示,国科会观察,近年各种大型语言模型推陈出新,从2018年的BERT一直到最近的BLOOM、ChatGPT、LLaMA、GPT-4等,各国也积极发展LLM,「台湾也不能缺席,」要从生成式AI人才培育、高速运算环境、高品质语料收集和标注等面向打好基础。
而TAIDE计画的宗旨是要以台湾文化为基础,加入台湾特有用语、价值观和风俗习惯等元素,来让生成式AI理解、回应在地使用者需求,打造可信任的生成式AI引擎基础模型。简单来说,TAIDE模型是为台湾量身打造,让政府和企业可根据需求,来选择合适的模型大小、算力,来自行训练模型,打造内部应用。这麽做,也能解决高机敏性企业用AI的顾虑。
李育杰说明,团队一开始尝试开源的大型语言模型BLOOM,以它为基础来打造TAIDE,但发现效果不如理想,因此改以Meta的LLaMA为基础,透过网路爬虫方式收集大量繁中资料,如新闻资料,来优化模型。他也点出,这些训练资料大约有1,440亿个Token。
但为确保资料品质和合规性,团队也花了不少时间清洗资料、取得资料授权并标注资料,同时根据不同主题和领域分类整理,设置特定领域的应用案例,来补足企业需求。微调模型时,他们也透过台大教授李弘毅团队来以强化学习优化模型表现,另一方面,国科会也建置运算环境和应用服务平台,来为後续的推广应用打下基础。李育杰补充,国科会除了将升级台湾杉超级电脑,今年10月还将购入一批新一代H100 GPU,加强算力。
不只如此,这个TAIDE计画除了发展可信任AI对话引擎,还有另一个重要任务,也就是建置可信任AI的验证机制。进一步来说,团队将聚焦法规和验证标准化,先研究AI法规,要协助国内AI法制化,还要针对技术和产业面,规画验证机制和相关工具,来完善AI发展环境。此外,他们还要纳入资安检测机制,来确保资料安全。这些验证工作和资安检测工作,将由数位部负责。
预计秋季开始打造商用版、年底完成13B版本模型
今日,TAIDE 7B版本模型亮相,属於TAIDE计画的第一阶段成果。这个7B模型可执行自动摘要、翻译文本、写信、写文章等4大任务(如下图),生成内容比其他主流模型要好,包括LLaMA-7B、以简中资料训练而成的Chinese Alpaca-7B、BLOOM-zh-3B。
接下来,TAIDE计画将进入第二阶段,也就是打造130亿参数的版本,要具备更多台湾知识、能作答台湾考试,且还要有事实查核的能力。而第三阶段目标,则是要让TAIDE具备可信任能力,包括要能阻绝产生不恰当回答的能力,以及有能力考虑伦理相关问题。
计画最後一阶段,则是要TAIDE模型具备更完善的多轮对话能力,以及能成熟执行前述所有任务。国科会预计今年底展示130亿参数的大模型,以及它阻绝产生不适当回应的能力。
李育杰也透露,团队预计下半年打造商用版TAIDE模型。但由於LLaMA只开放学术授权,团队将改用开放商用授权的LLM为基础,来微调出可供企业使用的小型模型;团队将在今年10月启用新一代H100 GPU来训练大型模型的同时,利用替换下来的GPU训练这款可商用的小型LLM。至於计价模式,李育杰表示目前尚无任何规画。
第一时间与企业对话,公私协力贴近产业需求
吴政忠表示,TAIDE计画之初,国科会就与企业沟通、了解生成式AI需求,如华硕、联发科、鸿海等。华硕子公司台智云上个月推出1,760亿参数的国产LLM福尔摩沙大模型,并提供离线部署服务供企业选择,华硕云端总经理暨台智云总经理吴汉章今日表示,TAIDE建立之初,团队就参与讨论,他认为公私协力非常重要,才能打造出符合企业需求的工具。
与此同时,华硕一方面摸索LLM服务商业模式,一方面也与联发科、鸿海等对LLM底层防护机制感兴趣的10几家企业,准备组成联盟(预计本周六宣布),来配合TAIDE主责单位研拟AI验证机制。
另一方面,吴政忠也透露,TAIDE计画目前投入2、3亿元台币,虽然TAIDE模型效能无法与ChatGPT并驾齐驱,但重要的是,对严格限制境外LLM(如ChatGPT)使用的台湾企业来说,本地开发的TAIDE就是一种解法。
玉山金控科技长张智星也在现场表示,金控就是受严格监管的产业,他们曾评估,若要自行开发ChatGPT,得花上1.2年,这还不包括重新训练、所需电力等成本,金控也无法负荷训练经费。但他认为,现在最重要的是「基础模型的出现,」未来企业可用自己的资料微调。他也不担心模型会给出错误答案,因为,金融业对资讯正确性非常讲究,他们自己就有套机制,能阻挡生成式AI给的错误和不实资讯,不论是商用生成式AI服务还是开源AI,玉山金控都这麽做。
他也点出,虽然金管会将在9月开放金融上云,但用来微调生成式AI的资料,仍有些机敏性,因此国产基础模型的出现,可解决金融业的生成式AI使用痛点。