公有领域中大模型开源代码数据训练的惠益分享
Benefit-sharing of Data Training for Large Model Open Source Code in Public Domain

下载全文在线阅读

同行评议 2024年09月26日

中文题名：公有领域中大模型开源代码数据训练的惠益分享

作者：张惠彬许蕾

第一作者：张惠彬

机构：[1]西南政法大学知识产权研究院;[2]西南政法大学

年份：2024

期号：2

起止页码：48-55

中文期刊名：特区实践与理论

中文关键词：大语言模型;开源许可协议;公有领域;技术普惠;

摘要：大语言模型的性能提升以海量数据训练为基础,开源代码数据是其重要的语料来源。开源以代码资源的开放共享为理念,以版权保护与协议授权为手段,在传统开源制度中,用户使用开源代码应当附带开源协议输出。而在大模型数据训练中,大模型的介入切开了开源协议的流动,代码数据的无法溯源和开源协议的不兼容使开源协议难以遵守,大模型数据训练的开源之困由此诞生,进而陷入版权保护与产业进步的两难困境。开源协议仅仅是实现技术普惠的工具,在生成式人工智能时代,大模型可以以一种更为开放的方式践行开源的理念,即走向明确的公有领域。在技术普惠理念的指引下,从开源许可协议走向代码数据开放是大模型开源代码数据训练的惠益分享之策。

分类号：D923.4[知识产权] D922.17[科学技术管理法令]

收录：国家哲学社会科学学术期刊数据库;中国人文社科核心期刊;普通刊

公有领域中大模型开源代码数据训练的惠益分享
Benefit-sharing of Data Training for Large Model Open Source Code in Public Domain

专家评语

参考文献

公有领域中大模型开源代码数据训练的惠益分享 Benefit-sharing of Data Training for Large Model Open Source Code in Public Domain

专家评语

参考文献

公有领域中大模型开源代码数据训练的惠益分享
Benefit-sharing of Data Training for Large Model Open Source Code in Public Domain