人工智能图像生成器带来的惊喜和担忧

人工智能的进步已被用于创建复杂的文本到图像系统。
这些系统已经被数百万数字艺术家使用，引发了人们对虚假信息、有害内容、版权保护和偏见的担忧。
论坛的人工智能首席平台策展人表示:“它需要得到相应的治理和监管。”

可用的人工智能（AI）文本到图像生成器的数量正在迅速增加，为公众提供了一系列用于创建数字图像的新工具。

上个月，人工智能开发公司OpenAI取消了DALL·E的候选名单，这是一款人工智能驱动的图像生成器。DALL-E以西班牙艺术家Salvador Dalí 和迪士尼皮克斯动画片《机器人总动员》命名，它根据文本描述创建图像，用户可以将其输入到系统中。

例如，正如在OpenAI首席执行官Sam Altman的推特账户上所看到的，用户可以在DALL-E创建一个 “草地上的大象茶会 ”或 “一只在喜马拉雅山上打坐寻找启蒙的聪明猫”的图像。

DALL-E于4月首次向包括一系列平面设计师、作家和建筑师在内的特定用户揭开面纱。6月，DALL-E的图片登上了《Cosmopolitan》的封面，成为头条新闻–据《Cosmopolitan》报道，这是有史以来第一个由人工智能生成的杂志封面。

参与制作《Cosmopolitan》封面的数字艺术家Karen X Cheng在Instagram上解释说： “虽然每次生成一张图片只需要20秒，但却需要经过数百次的尝试。在得到完美的图像之前，需要花好几个小时的时间进行提示生成和改进。”

达尔·E是使用称为GPT-3的开放AI文本生成器构建的。该系统经过更新和训练，从具有120亿个参数的复杂文本短语中生成相应的图像。已经，达尔·根据OpenAI的数据，E拥有超过150万活跃用户，他们每天创建超过200万张图像。

DALL-E加入了最近几个月向公众公布的其他几款人工智能图像生成器的行列。例如，在八月份，人工智能研究机构 Stability.ai 发布了另一个文本到图像的生成器Stable Diffusion。谷歌还致力于开发两种文本到图像的系统，称为Imagen和Parti，这是Pathways Autoregressive Text-to-Image的缩写。

Midjourney是另一个文本到图像的生成器，允许用户通过Discord（一个流行的群组消息传递平台）输入提示。今年8月，在Midjourney上创作的一张图片赢得了美国的一项艺术比赛之后，该系统获得了广泛关注。这一获奖在艺术界引发了关于创作过程和什么是艺术的激烈辩论。

已经有成千上万的AI生成的图像在某些库存照片网站上出售和下载。然而，人工智能艺术生成器的使用引发了广泛的版权问题。

9月，全球顶级视觉媒体和照片供应公司之一的Getty Images宣布，它不会在其各种平台上接受人工智能生成的图像。该公司在一份声明中说，做出这一决定是因为版权责任和使用权问题。

Getty Images的声明补充说：“我们将继续支持使用工具（包括那些可能利用人工智能的工具）的创意人员，以根据我们的接受政策增强其原始概念和视觉作品，我们随时准备与那些希望以对社会负责的方式推进人工智能并尊重个人和知识产权的人合作。”

此外，怀疑论者对人工智能图像生成器被用来创造有害内容、传播虚假信息以及推进负面偏见和刻板印象发出了警告。虽然一些文本到图像系统有一定的护栏——比如禁止名人或政客等公众人物的形象——但许多人呼吁建立更严格的管理制度来规范该行业。

人工智能研究人员正在努力完善文本到图像系统并解决这些问题。例如，OpenAI已经推出了其第二次迭代的DALL·E， DALL·E2，旨在更好地识别个人图像（如个人面孔）的滥用，并在文本输入未指定种族或性别时抵消偏见。这些输入可能包括“首席执行官”，“消防员”或“医生”。

OpenAI在一份声明中表示： “根据我们的内部评估，在应用该技术后，用户认为DALL·E图像包含不同背景的人的可能性增加了12倍。”

人工智能驱动的文本到视频系统也正在开发中。虽然视频发生器还处于早期阶段，但最近几个月已经推出了几种。

今年5月，中国清华大学和北京人工智能研究院的研究人员推出了一款名为CogVideo的人工智能视频发生器。

最近，在九月份，Facebook，Instagram和WhatsApp的母公司Meta推出了Make-A-Video，这是一个人工智能系统，可以从文本提示中创建短视频剪辑。 “这是一个非常惊人的进步，”Meta首席执行官马克扎克伯格在Facebook上说。

“生成视频比生成照片要困难得多，因为除了正确生成每个像素之外，系统还必须预测它们将如何随时间变化，”扎克伯格补充道。

Meta的发布是在谷歌发布Imagen Video之前的几周，Imagen Video是一个类似的人工智能文本到视频系统。该公司在一份研究报告中说，Imagen Video “不仅能够生成高保真度的视频，而且具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画的能力，并具有三维物体理解能力。”