谷歌渴望更多数据来训练其人工智能——但代价是什么?

AI资讯2年前 (2023)更新 GPTHub
49 0

使用 AI Decrypt 创建的图像

谷歌明确表示,它打算利用网络出版商的内容来推进其人工智能系统。这家科技和搜索巨头建议,如果公司不想自己的材料被删除,就必须选择退出(就像他们目前对搜索引擎索引所做的那样)。

这种选择退出模式的批评者表示,该政策颠覆了版权法,该法将责任归于寻求使用受版权保护材料的实体,而不是版权所有者本身。

谷歌的计划是在向澳大利亚政府提交的关于监管高风险人工智能应用程序的咨询意见中透露的。尽管澳大利亚一直在考虑禁止人工智能的某些有问题的使用,例如虚假信息和歧视,但谷歌认为人工智能开发人员需要广泛访问数据。

《卫报》报道,谷歌告诉澳大利亚政策制定者,“版权法应该允许适当和公平地使用受版权保护的内容”进行人工智能培训。该公司指出其标准化内容爬虫名为robots.txt,它允许出版商指定其网站中不对网络爬虫开放的部分。

谷歌没有提供有关如何选择退出的详细信息。在一篇 博客文章中,它含糊地提到了新的“标准和协议”,允许网络创建者选择他们的人工智能参与水平。

该公司自 5 月份在澳大利亚发布 Bard AI 聊天机器人以来一直在游说澳大利亚放宽版权规则。然而,谷歌并不是唯一一家有数据挖掘雄心的公司。OpenAI 是领先的聊天机器人 ChatGPT 的创建者,旨在通过名为 GPTBot 的新网络爬虫扩展其训练数据集。与谷歌一样,它采用了一种选择退出模式,要求出版商在不希望内容被删除的情况下添加“禁止”规则。

这是许多大型科技公司的标准做法,这些公司依靠人工智能(深度学习和机器学习算法)来映射用户的品味并推送匹配的内容和广告。

随着人工智能的普及,对更多数据的推动也随之而来。ChatGPT 和 Google 的 Bard 等系统的功能依赖于摄取大量文本、图像和视频数据集。据 OpenAI 称,“GPT-4 从各种许可的、创建的和公开的数据源中学习,其中可能包括公开的个人信息。”

但一些专家认为,未经许可的网络抓取会引发版权和道德问题。像新闻集团这样的出版商已经在与人工智能公司进行谈判,寻求使用其内容的费用。法新社刚刚就这个问题发表了一封公开信。

信中写道:“生成式人工智能和大型语言模型也经常使用专有媒体内容进行训练,出版商和其他人投入大量时间和资源来制作这些内容。” “这种做法破坏了媒体行业的核心商业模式,而这些模式以读者和收视率(例如订阅)、许可和广告为基础。

该媒体机构补充说:“除了违反版权法之外,由此产生的影响还大大减少了媒体多样性,损害了公司投资媒体报道的财务可行性,进一步减少了公众获取高质量和可信信息的机会。”

这场辩论集中体现了通过无限数据访问推进人工智能与尊重所有权之间的紧张关系。一方面,消费的内容越多,这些系统的能力就越强。但这些公司也从他人的工作中获利,但没有分享利益。

取得适当的平衡并不容易。谷歌的提议本质上是告诉出版商“将你的工作交给我们的人工智能,或者采取行动选择退出”。对于资源或知识有限的小型出版商来说,选择退出可能具有挑战性。

澳大利亚对人工智能伦理的审查为更好地塑造这些技术的发展提供了机会。但如果公共话语让位给对数据饥渴的科技巨头追求自身利益,那么它可能会形成一种现状,即创造物被人工智能系统整个吞噬,除非创造者跳出困境来阻止它。

ChatGPTChatGPT中国站国内ChatGPT人工智能AIOpenAIChatGPT国内ChatGPT官网ChatGPT中文版ChatGPT体验ChatGPT国内站点ChatGPT中文网ChatGPT国内中国版ChatGPTChatGPT中国镜像ChatGPT国内镜像AI全家桶AI导航MJ绘画AI绘画技术人工智能绘画AI艺术创作智能绘图软件

© 版权声明

相关文章