上海数交所总经理汤奇峰:构建大模型时代语料库数据生态推动数据要素市场创新
7月8日,在由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛上,上海数交所总经理汤奇峰作题为“大模型时代下的语料库”的主旨演讲,带来关于国内语料库建设挑战的观察,并从语料库质量和开放程度两个维度给出建设建议。
汤奇峰认为大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。
“语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”汤奇峰说。
当天活动上,上海数交所正式启动语料数据生态创新合作伙伴计划,携手首批合作伙伴丰富语料库,推动数据要素市场建设。
关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?”由此,汤奇峰指出可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。
上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议可以从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向建设大模型时代下的语料库。
汤奇峰指出,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题。”
此外,上海数据交易所语料库还将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放数据积极性。
针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道提高数据质量。
汤奇峰说:“语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。”
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
- 经济观察中国将加速5G融合应用发展
- 11月中国进出口额同比增1.2%月度增速加快
- 济宁市2023年下半年绿色低碳高质量发展现场观摩会——中国中
- 兴化市戴南镇志愿者为百名老人送“爱心饺子”
- 中国A股周二下跌沪指失守3000点
- 多维度数据凸显经济澎湃活力“历史新高”“稳中向好”成关键词
- 阿里网络大腾挪:接连“退出”美年健康、分众等7家公司,非主业
- 德定安航空在上海设立新工厂法国驻沪总领事:相信法国企业能为中
- 莱克洗地吸尘器,宝爸宝妈的全屋清洁利器
- 回暖、活跃、回升、增强……企业信心足中国经济“加速跑”
- 国内足金首饰金价突破630元/克
- 济宁市2023年下半年绿色低碳高质量发展现场观摩会——西城新
- 第六届进博会光明食品集团“THESMARTCHAIN全球食品
- 万亿信创赛道前景广阔 睿银科技发力竞逐领跑市场
- 市场规模持续增长,敷尔佳联合青眼发布《2024年面膜趋势洞察
- 灌南经济技术开发区:舞动项目建设龙头,锻造产业发展“黄金链”
- 中国A股12月开局平稳央企旗下公司增持指数基金
- “大地情深”全国优秀群众文艺作品汇演举办