2023北京智源大会:AI数据开源的意义、挑战与未来趋势探讨
在 6 月 9 日至 10 日举行的 2023 北京致远大会上,“AI 数据开源”引起了广泛关注。为什么 AI 数据应该开源?开源 AI 数据面临哪些挑战?这将是未来 AI 发展的重要趋势吗?科技报记者带着这些问题采访了相关专家。
开源 AI 数据具有重要意义
有专家认为,AI 数据的开源对深度学习模型的发展具有重要意义。由于大型 AI 模型需要大量资源,预计“赢家通吃”AI 系统的开发和管理将首先由少数闭源实体主导。
不幸的是,这种资源限制使得研究人员、非营利组织和初创公司等小规模实体几乎不可能从头开始训练自己的大型 AI 模型,因为他们负担不起高昂的成本。
以对话模型为例,国内外很多开源对话模型其实都是基于基于语言的大模型,然后用少量的指令微调数据进行训练。
如果开源 AI 大模型的数据在质量方面有足够的竞争力,深度学习模型的大规模训练和运营成本将大大降低。
北京人工智能研究院(以下简称致远)副总裁兼总工程师林永华告诉记者,大模型是AI未来发展的重要方向,其研究和应用将逐渐成为AI发展的重点方向,并有望形成新一轮的AI推广浪潮, AI 数据的开源将进一步推动大模型的发展。
深度学习需要大量的标记数据进行模型训练。在林永华看来,深度学习技术近 10 年发展迅速的一个重要原因是,许多志愿者团体和国外科研团队一直在积极收集、整理和开源用于深度学习的训练数据集。“目前 AI 大模型训练对数据量的需求比之前的深度学习小模型增加了 100 倍,甚至 1000 倍。因此,尤其是在过去的一年里,开源数据的问题受到了越来越多的关注。林永华说。
其背后的挑战不容忽视
虽然开源将为 AI 的发展带来许多好处,但其背后的挑战也不容忽视。其中之一是开源安全性和合规性挑战。林永华认为,对于传统商业软件来说,开源中的安全性、合规性、许可和代码质量风险是使用开源组件时必须面对的挑战。然而,在大型 AI 模型时代,更大的挑战在于开源数据集。
因此,AI 数据的开源应在许可范围内进行。“用于 AI 大型模型训练的开源数据必须是从公开可用或公开可用的来源合法收集的数据。在开源协议允许的范围内,人们可以访问、修改和使用数据,用于 AI 大模型训练和 AI 算法开发。某些数据可能需要在此过程中使用更严格的协议。林永华说。
此外,今天的基础 AI 模型不仅具有理解能力,而且还具有生成能力,它们可以将认知和价值输出到外界,这可能会对社会产生巨大影响。“当我们训练基本的大型模型时,所使用的预训练数据将在确定 AI 生成的内容质量方面发挥重要作用。因此,开源数据的质量很重要。”
林永华指出,由于高质量的数据(如文章、图片、视频等)通常都受版权保护,而版权或商业因素带来的闭源和数据孤岛等挑战会制约人工智能的发展,因此需要推动更多高质量开源数据集的建设,尤其是用于训练基础 AI 大模型的开源数据集。
LF AI & DATA基金会董事会主席杜俊平对此也深有感触:“AI模型就像一个贪婪的'怪物',它总是需要研究人员提供更多、更好的数据。他说,目前的数据几乎总是从三个来源获得:“在互联网上积极收集”、“从第三方购买”和“使用公共数据集”。在杜俊平看来,从第一渠道获得的数据更加有限,而且由于版权问题,很多公司只能从自己的私域获取数据;从第二个通道获取的数据面临数据定价、数据质量等问题。从第三方来源获得的数据通常仅用于研究目的,并且在商业和其他方面存在许多限制。
开源已逐渐成为 AI 发展的重要趋势
记者了解到,智源教育学院对 2023 年 1 月至 5 月底发布的有影响力的语言模型进行了统计。统计结果表明,国外发布的开源语言模型有 39 个,国内发布的开源语言模型有 11 个。
“开源是推动 AI 技术进步的重要力量,AI 开源的建设和平台建设也越来越受到关注。开源无疑已成为重要的 AI 发展趋势之一。林永华表示,“开源可以推动 AI 大模型的科研和创新,推动和降低 AI 大模型的落地门槛,甚至降低整个 AI 行业的落地门槛。”
然而,开源之路并非一帆风顺,除了数据,算力也是开源道路上的“拦路虎”。AI 大型模型训练依赖于大量的数据和计算能力。训练参数的增长导致对算力的需求增加,算力集群越来越大。
然而,计算能力的成本对于小型开发人员来说是 “无法承受的”。在获得大型 AI 模型的开源数据后,通常需要对其进行微调和重新开发。但现实情况是,对于一些小型开发者来说,只做推理是很困难的,更别说大型 AI 模型的微调和二次开发了。以 ChatGPT 为例,仅就算力而言,Open AI 为了训练它,构建了一个由近 30000 张 NVIDIA V100 显卡组成的庞大算力集群。据悉,Open AI 发布的新一代语言模型 GPT-4 甚至达到了 100 万亿的参数规模,其对应的算力需求同比大幅增长。
目前,有一些研究机构希望通过技术创新来抵消巨大的算力成本。最直接的手段是通过训练技术的创新来加快 AI 大模型的推理速度,降低计算成本,降低能耗,从而提高 AI 大模型的易用性,让开源数据更有价值,但这只能从工程角度缓解计算资源的束缚, 并且不是最终的解决方案。
有行业专家表示,要解决算力问题,最终还是要回到AI大模型本身去寻找突破口,而一个非常有希望的方向就是稀疏大模型。稀疏大型模型的特点是容量大,但模型的某些功能仅在用于给定任务、样本或标记时才会激活。换句话说,这种稀疏大模型的动态结构可以让 AI 大模型在参数数量上跃升上级,同时不必付出巨大的算力成本,一石二鸟。
此外,开源社区的作用也不容忽视。开源社区是推动开源发展的重要基石,开源的最初起源是社区开发者的贡献。“Linux 的成功很大程度上归功于开源社区。30 多年来,Linux 已经发展成为在全球拥有大量用户的操作系统,其成功和长寿的秘诀是开源的,尤其是内核社区中成千上万的开发人员的贡献。林永华举了一个例子。
“开源和开放性使我们能够站在前人的肩膀上。”林永华总结道:“这些年人工智能领域的成就大多得益于开源,没有开源,人工智能就不会发展到今天。
生活日报网·版权声明
本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
本网站所提供的信息,只供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。本网站及其雇员一概毋须以任何方式就任何信息传递或传送的失误、不准确或错误,对用户或任何其他人士负任何直接或间接责任。在法律允许的范围内,本网站在此声明,不承担用户或任何人士就使用或未能使用本网站所提供的信息或任何链接所引致的任何直接、间接、附带、从属、特殊、惩罚性或惩戒性的损害赔偿。
【特别提醒】:如您不希望作品出现在本站,可联系我们要求撤下您的作品。邮箱 sunny@sdlife.com.cn