北京拟整合现有开源中文预训练数据集和高质量互联网中文数据

2023-05-16 11:35:04    来源:北京商报官方账号


(资料图片仅供参考)

北京商报讯(记者 杨月涵)5月16日,据北京市科委官网,北京出台《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,征求意见稿提到,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

关键词:

X 关闭

为什么这次寒潮南方降雪这么明显?
时间·2021-12-29    来源·新华社
山西绛县6名失踪者全部遇难 当地:已立案调查
时间·2021-12-29    来源·中新网
福建多地现雾凇美景 供电部门特巡清障
时间·2021-12-29    来源·

X 关闭