哔哩哔哩在 WAIC 2024 上首次展出自研大语言模型
在 2024 国际人工智能大会(WAIC 2024)上,哔哩哔哩(B站)
发布了
多项自主研制的 AI 技能成果和 AIGC 多元构思,包括最新定制的 AI 语音声库、自研音视频大模型必剪 Studio 以及自研 AI 动态漫技能等。此外,B 站自研的大言语模型系列也在此次 WAIC 2024 大会上初次展出,包括开源的 Index-1.9B chat 和 Index-1.9B character 两个模型。
Index-1.9B 系列模型于 6 月开源,包括基座模型、对照组、对话模型、角色扮演模型:
- Index-1.9B base : 基座模型,具有 19 亿非词嵌入参数量,在 2.8T 中英文为主的语料上预练习,多个评测基准上与同等级模型比处于抢先
- Index-1.9B pure : 基座模型的对照组,与 base 具有相同的参数和练习战略,不同之处在于过滤了该版别语料中所有指令相关的数据,以此来验证指令对 benchmark 的影响
- Index-1.9B chat : 依据 index-1.9B base 经过 SFT 和 DPO 对齐后的对话模型
- Index-1.9B character : 在 SFT 和 DPO 的基础上引入了 RAG 来完成 fewshots 角色扮演定制
在 B 站 15 周年演讲上,B 站董事长兼 CEO 陈睿表明,2023 年,B站 AI 相关内容的日均视频播放量同比增加超越 80%,爆款内容包括科普资讯、AI 技能使用、数字人和构思使用等范畴。依据 B 站泄漏的数据,当时超越 8000 万用户每月在 B 站观看 AI 相关的视频,其间 6 成为 00 后。