诉讼针对人工智能的构建方式

一位程序员正在起诉微软、GitHub和OpenAI，因为人工智能技术可以生成自己的计算机代码。

Cade Metz位于旧金山，撰写关于人工智能和其他新兴技术的文章。

6月下旬，微软发布了一种新的人工智能技术，可以生成自己的计算机代码。

该工具被称为Copilot，旨在加速专业程序员的工作。当他们在笔记本电脑上打字时，它将建议他们立即将现成的计算机代码块添加到自己的代码中。

许多程序员喜欢这个新工具，或者至少对它感到好奇。但是洛杉矶的程序员、设计师、作家和律师Matthew Butterick却不是其中之一。本月，他和其他律师团队提起诉讼，寻求对微软和其他设计和部署Copilot的知名公司提起集体诉讼。

像许多尖端的人工智能技术一样，Copilot通过分析大量的数据发展其技能。在这种情况下，它依靠的是发布在互联网上的数十亿行计算机代码。52岁的Butterick先生将这一过程等同于盗版，因为该系统不承认其对现有工作的亏欠。他的诉讼称，微软及其合作者侵犯了数百万花了多年时间编写原始代码的程序员的合法权利。

该诉讼被认为是对一种名为“人工智能培训”的设计技术的首次法律攻击，这种人工智能的构建方式有望重塑科技行业。近年来，许多艺术家、作家、学者和隐私活动家都抱怨说，公司正在使用不属于他们的数据来训练他们的人工智能系统。

程序员兼律师Matthew Butterick说，他担心自己所做的工作在新的人工智能系统中被不适当地采用。这起诉讼在过去几十年的科技行业中都有呼应。从20世纪90年代到21世纪初，微软一直在抵制开源软件的兴起，将其视为对公司未来业务的生存威胁。随着开源重要性的增长，微软欣然接受了它，甚至收购了开源程序员的大本营GitHub，这是他们构建和存储代码的地方。

几乎每一代新技术，甚至是在线搜索引擎都面临类似的法律挑战。专门从事这一日益重要的法律领域的知识产权律师Bradley J. Hulbert说：“通常情况下，没有任何法规或判例法涵盖它。”

这起诉讼是对人工智能关注热潮的一部分。艺术家、作家、作曲家和其他创意类型的人越来越担心公司和研究人员在未经他们同意和不提供补偿的情况下使用他们的作品来创造新技术。公司以这种方式训练各种各样的系统，包括艺术生成器、Siri和Alexa等语音识别系统，甚至是无人驾驶汽车。

Copilot基于OpenAI构建的技术，OpenAI是旧金山的人工智能实验室，由微软提供10亿美元的资金支持。OpenAI处于利用数字数据训练人工智能技术的日益广泛的努力的最前沿。

在微软和GitHub发布Copilot之后，GitHub的首席执行官Nat Friedman在推特上表示，根据版权法，使用现有代码来训练系统是对材料的“合理使用”。这是构建这些系统的公司和研究人员经常使用的一个论据，但目前还没有法庭案例来检验这一论据。

“微软和OpenAI的野心远远超出了GitHub和Copilot，他们想在任何地方永远免费的、未经同意的训练任何数据，”Butterick先生在一次采访中说。

Butterick先生和一个由其他律师组成的团队正在起诉微软和Copilot的其他开发者。

2020年，OpenAI公布了一个名为GPT-3的系统。研究人员利用海量的数字文本训练该系统，包括成千上万的书籍、维基百科文章、聊天记录和其他发布在互联网上的数据。

通过精确定位所有文本中的模式，该系统学会了预测序列中的下一个单词。当有人在这个“大型语言模型”中输入几个单词时，它可以用整个段落的文字来完成这个想法。通过这种方式，该系统可以编写自己的Twitter帖子、演讲稿、诗歌和新闻文章。

令建造该系统的研究人员感到惊讶的是，它甚至可以编写计算机程序，显然是从发布到互联网上的无数程序中学习的。

因此，OpenAI更进一步，在专门存储代码的新数据集合上训练了一个新系统Codex。该实验室后来在一篇详细介绍该技术的研究论文中表示，这些代码中至少有一部分来自GitHub，GitHub是一个由微软拥有和运营的流行编程服务。

这个新系统成为Copilot的基础技术，微软通过GitHub将其分发给程序员。在对相对较少的程序员进行了大约一年的测试之后，Copilot于7月向GitHub上的所有编码员推出。

许多使用过该技术的程序员表示，目前Copilot生成的代码很简单，可能对大型项目有用，但必须对其进行修改、增强和审查。一些程序员发现只有在学习编码或试图掌握一门新语言时，它才有用。

不过，Butterick先生担心，Copilot最终会破坏全球程序员社区，这些程序员构建了大多数现代技术的核心代码。在该系统发布几天后，他发表了一篇博客文章，题目是：这个Copilot是愚蠢的，想杀了我。

Butterick先生认为自己是一名开源程序员，是公开与世界分享其代码的程序员社区的一部分。在过去30年里，开源软件帮助推动了消费者每天使用的大多数技术的崛起，包括网络浏览器、智能手机和移动应用程序。

尽管开源软件被设计为在编码者和公司之间自由共享，但这种共享受到许可证的约束，旨在确保其使用方式有利于更广泛的程序员社区。Butterick先生认为，Copilot已经违反了这些许可证，而且随着它的不断改进，将使开源编码人员被淘汰。

在公开抱怨这个问题几个月后，他与其他几位律师一起提起了诉讼。该诉讼仍处于最早期阶段，尚未被法院授予集体诉讼地位。

令许多法律专家惊讶的是，Butterick先生的诉讼并没有指责微软、GitHub和OpenAI侵犯版权。他的诉讼采取了不同的策略，认为这些公司违反了GitHub的服务条款和隐私政策，同时也触犯了一项联邦法律，该法律要求公司在使用材料时显示版权信息。

Butterick先生和该诉讼背后的另一位律师Joe Saveri说：“该诉讼最终可能会解决版权问题。”

当被问及该公司是否可以讨论该诉讼时，GitHub发言人拒绝了，然后在一份电子邮件声明中说：“该公司从一开始就致力于以负责任的方式对Copilot进行创新，并将继续发展该产品，为全球的开发者提供最佳服务。” 微软和OpenAI拒绝就该诉讼发表评论。

大多数专家认为，根据现有法律，在受版权保护的材料上训练人工智能系统不一定是非法的。但是，如果该系统最终创造的材料与它所训练的数据实质上相似，那么这样做就可能是非法的。

Copilot的一些用户说，它产生的代码似乎与现有的程序相同或几乎相同，这一观察可能成为Butterick先生和其他案件的核心部分。

加州大学伯克利分校专门研究知识产权及其在现代技术中的作用的教授Pam Samuelson表示：“法律思想家和监管机构在1980年代，即技术存在之前简要探讨了这些法律问题，现在需要进行法律评估。”

Samuelson博士说：“这不再是一个开玩笑的问题。”