20 多年来,Kit Loffstadt 一直在为《星球大战》英雄和《吸血鬼猎人巴菲》反派撰写探索平行宇宙的同人小说,并在网上免费分享她的故事。
但五月,洛夫施塔特女士得知一家数据公司复制了她的故事并将其输入到网站中后,停止发布她的作品。 人工智能技术 潜在的 聊天GPT,病毒式聊天机器人。 沮丧之余,她把自己的作品藏在一个被锁定的账户后面。
洛夫施塔特女士上个月还帮助组织了一场反对人工智能系统的叛乱行动。 她与其他数十位同人小说作家一起,在网上发表了大量不敬的故事,以压倒和混淆将作家作品输入人工智能技术的数据收集服务。
来自英国南约克郡的 42 岁配音演员洛夫施塔特女士说:“我们每个人都必须尽一切努力向他们展示我们的创造力产出,而不是让机器随心所欲地收获。”
同人小说作家只是现在对人工智能系统发起反抗的一群人。 对技术的狂热 已经吸引了硅谷和全世界。 近几个月来,Reddit 和 Twitter 等社交媒体公司、《纽约时报》和 NBC News 等新闻机构、Paul Tremblay 等作家和女演员 莎拉西尔弗曼 所有人都反对人工智能在未经许可的情况下吸收他们的数据。
他们的抗议采取了不同的形式。 作家和艺术家正在锁定他们的文件以保护他们的作品,或者抵制某些发布人工智能生成内容的网站,而 Reddit 等公司则希望这样做 访问费用 他们的数据。 今年至少有 10 起针对人工智能公司的诉讼,指控它们在未经同意的情况下根据艺术家的创意作品训练其系统。 上周,西尔弗曼女士和作者克里斯托弗·戈尔登(Christopher Golden)和理查德·卡德雷(Richard Kadrey) 被起诉 ChatGPT 的创建者 OpenAI 和其他人讨论 AI 对他们工作的使用。
这引发了科技公司寻找更多数据来为其人工智能系统提供数据。 谷歌、Meta 和 OpenAI 基本上使用了来自整个互联网的信息,包括大型同人小说数据库、大量新闻文章和书籍收藏,其中大部分可以免费在线获取。 用科技行业的话说,这被称为“抓取”互联网。
OpenAI 的 GPT-32020 年发布的人工智能系统涵盖 5000 亿个“代币”,每个代币代表主要在网上找到的单词的一部分。 一些人工智能模型涵盖超过一万亿个代币。
抓取互联网的做法由来已久,并且大部分是由这样做的公司和非营利组织披露的。 但拥有这些数据的公司并没有很好地理解或认为这是一个特别有问题的问题。 ChatGPT 在 11 月首次亮相后,这种情况发生了变化,公众更多地了解了为聊天机器人提供支持的底层人工智能模型。
人工智能公司 Nomic 的创始人兼首席执行官布兰登·杜德施塔特 (Brandon Duderstadt) 表示:“这里正在发生的事情是数据价值的根本性重新调整。” “以前,人们的想法是,通过向所有人开放数据并投放广告来从数据中获取价值。 现在,我们的想法是锁定你的数据,因为当你将其用作人工智能的输入时,你可以提取更多的价值”
从长远来看,数据抗议可能不会产生什么影响。 谷歌和微软等财力雄厚的科技巨头已经坐拥大量专有信息,并拥有授权更多资源的资源。 但随着易于抓取内容的时代即将结束,原本希望与大公司竞争的小型人工智能新贵和非营利组织可能无法获得足够的内容来训练他们的系统。
OpenAI 在一份声明中表示,ChatGPT 接受了“许可内容、公开内容和人类人工智能培训师创建的内容”的培训。 它补充说,“我们尊重创作者和作者的权利,并期待继续与他们合作,保护他们的利益。”
谷歌在一份声明中表示,它正在参与有关出版商未来如何管理其内容的谈判。 该公司表示:“我们相信每个人都会从充满活力的内容生态系统中受益。” 微软没有回应置评请求。
去年 ChatGPT 成为全球现象后,数据叛乱爆发了。 11月,一群程序员 提起集体诉讼 针对微软和 OpenAI,声称这些公司在他们的代码被用来训练人工智能驱动的编程助手后侵犯了他们的版权。
一月份,提供照片和视频的盖蒂图片社提起诉讼 稳定性人工智能,一家根据文本描述创建图像的人工智能公司,声称该初创公司使用受版权保护的照片来训练其系统。
随后在 6 月,洛杉矶的克拉克森律师事务所对 OpenAI 和微软提起了长达 151 页的集体诉讼,描述了 OpenAI 如何收集未成年人的数据,并表示网络抓取违反了版权法并构成“盗窃”。 周二,该公司对谷歌提起了类似诉讼。
瑞安·克拉克森 (Ryan Clarkson) 表示:“我们在全国范围内看到的数据叛乱是社会抵制这样一种观念的方式,即大型科技公司只是有权从任何来源获取任何和所有信息,并将其变成自己的信息。”克拉克森的创始人。
圣克拉拉大学法学院教授埃里克·戈德曼表示,诉讼的论点范围广泛,不太可能被法院接受。 但他表示,诉讼浪潮才刚刚开始,“第二波和第三波”即将到来,这将定义人工智能的未来。
大公司也在抵制人工智能抓取工具。 在四月份, 红迪网 说 它希望对其应用程序编程接口(API)的访问进行收费,第三方可以通过该方法下载和分析社交网络庞大的人与人对话数据库。
Reddit 首席执行官史蒂夫·霍夫曼 (Steve Huffman) 当时表示,他的公司“不需要将所有这些价值免费提供给世界上一些最大的公司”。
同月,计算机程序员问答网站 Stack Overflow 表示,还将要求人工智能公司为数据付费。 该网站有近 6000 万个问题和答案。 此前曾有报道称其此举 由连线。
新闻机构也在抵制人工智能系统。 在 6 月份关于使用生成式人工智能的内部备忘录中,《泰晤士报》表示人工智能公司应该“尊重我们的知识产权”。 时报发言人拒绝详细说明。
对于个体艺术家和作家来说,对抗人工智能系统意味着重新思考他们的出版地点。
35 岁的尼古拉斯·科尔 (Nicholas Kole) 是不列颠哥伦比亚省温哥华市的一名插画家,他对人工智能系统如何复制自己独特的艺术风格感到震惊,并怀疑该技术已经刮掉了他的作品。 他计划继续在 Instagram、Twitter 和其他社交媒体网站上发布自己的作品以吸引客户,但他已停止在 ArtStation 等网站上发布作品,这些网站将人工智能生成的内容与人类生成的内容一起发布。
“这感觉像是对我和其他艺术家的肆意盗窃,”科尔先生说。 “它让我的胃里充满了存在主义的恐惧。”
Archive of Our Own 是一个拥有超过 1100 万个故事的同人小说数据库,作家们不断向该网站施压,要求其禁止数据抓取和人工智能生成的故事。
今年 5 月,当一些 Twitter 账户分享了 ChatGPT 模仿 Archive of Our Own 上流行同人小说风格的例子时,数十名作家奋起反抗。 他们屏蔽了自己的故事并编写了颠覆性内容来误导人工智能抓取者。 他们还敦促 Archive of Our Own 的领导人停止允许人工智能生成内容。
为“Archive of Our Own”提供法律建议的塔尔萨大学法学院教授贝齐·罗森布拉特 (Betsy Rosenblatt) 表示,该网站奉行“最大包容性”政策,并不想辨别哪些故事是写的。与人工智能
对于同人小说作家洛夫施塔特来说,与人工智能的斗争是在她撰写《地平线零之黎明》的故事时发生的,这是一款视频游戏,人类在后世界末日的世界中与人工智能驱动的机器人战斗。 她说,在游戏中,有些机器人做得很好,有些则很糟糕。
但在现实世界中,她说,“由于傲慢和企业的贪婪,他们被扭曲去做坏事。”