谷歌渴望更多数据来训练其人工智能——但代价是什么？

AI资讯2年前 (2023)更新 GPTHub

49 0 54

使用 AI Decrypt 创建的图像

谷歌明确表示，它打算利用网络出版商的内容来推进其人工智能系统。这家科技和搜索巨头建议，如果公司不想自己的材料被删除，就必须选择退出（就像他们目前对搜索引擎索引所做的那样）。

谷歌的计划是在向澳大利亚政府提交的关于监管高风险人工智能应用程序的咨询意见中透露的。尽管澳大利亚一直在考虑禁止人工智能的某些有问题的使用，例如虚假信息和歧视，但谷歌认为人工智能开发人员需要广泛访问数据。

据《卫报》报道，谷歌告诉澳大利亚政策制定者，“版权法应该允许适当和公平地使用受版权保护的内容”进行人工智能培训。该公司指出其标准化内容爬虫名为robots.txt，它允许出版商指定其网站中不对网络爬虫开放的部分。

谷歌没有提供有关如何选择退出的详细信息。在一篇博客文章中，它含糊地提到了新的“标准和协议”，允许网络创建者选择他们的人工智能参与水平。

该公司自 5 月份在澳大利亚发布 Bard AI 聊天机器人以来一直在游说澳大利亚放宽版权规则。然而，谷歌并不是唯一一家有数据挖掘雄心的公司。OpenAI 是领先的聊天机器人 ChatGPT 的创建者，旨在通过名为 GPTBot 的新网络爬虫扩展其训练数据集。与谷歌一样，它采用了一种选择退出模式，要求出版商在不希望内容被删除的情况下添加“禁止”规则。

这是许多大型科技公司的标准做法，这些公司依靠人工智能（深度学习和机器学习算法）来映射用户的品味并推送匹配的内容和广告。

随着人工智能的普及，对更多数据的推动也随之而来。ChatGPT 和 Google 的 Bard 等系统的功能依赖于摄取大量文本、图像和视频数据集。据 OpenAI 称，“GPT-4 从各种许可的、创建的和公开的数据源中学习，其中可能包括公开的个人信息。”

但一些专家认为，未经许可的网络抓取会引发版权和道德问题。像新闻集团这样的出版商已经在与人工智能公司进行谈判，寻求使用其内容的费用。法新社刚刚就这个问题发表了一封公开信。

信中写道：“生成式人工智能和大型语言模型也经常使用专有媒体内容进行训练，出版商和其他人投入大量时间和资源来制作这些内容。” “这种做法破坏了媒体行业的核心商业模式，而这些模式以读者和收视率（例如订阅）、许可和广告为基础。

该媒体机构补充说：“除了违反版权法之外，由此产生的影响还大大减少了媒体多样性，损害了公司投资媒体报道的财务可行性，进一步减少了公众获取高质量和可信信息的机会。”

这场辩论集中体现了通过无限数据访问推进人工智能与尊重所有权之间的紧张关系。一方面，消费的内容越多，这些系统的能力就越强。但这些公司也从他人的工作中获利，但没有分享利益。

取得适当的平衡并不容易。谷歌的提议本质上是告诉出版商“将你的工作交给我们的人工智能，或者采取行动选择退出”。对于资源或知识有限的小型出版商来说，选择退出可能具有挑战性。

澳大利亚对人工智能伦理的审查为更好地塑造这些技术的发展提供了机会。但如果公共话语让位给对数据饥渴的科技巨头追求自身利益，那么它可能会形成一种现状，即创造物被人工智能系统整个吞噬，除非创造者跳出困境来阻止它。

ChatGPT、ChatGPT中国站、国内ChatGPT、人工智能、AI、OpenAI、ChatGPT国内、ChatGPT官网、ChatGPT中文版、ChatGPT体验、ChatGPT国内站点、ChatGPT中文网、ChatGPT国内、中国版ChatGPT、ChatGPT中国镜像、ChatGPT国内镜像、AI全家桶、AI导航、MJ绘画、AI绘画技术、人工智能绘画、AI艺术创作、智能绘图软件

# AI资讯

文章版权归作者所有，未经允许请勿转载。

被删除的Sam Altman 谈话纪要：Open AI 也缺 GPU，降低成本是首要目标

GPTHub

6 12

美国官员将英伟达人工智能芯片的出口限制扩大到“一些中东国家”|中国百度等科技公司发布类似ChatGPT的人工智能聊天机器人

GPTHub

13 12

OpenAI ChatGPT创始人与美国国会听证会的九个关键时刻：监管、透明度和隐私问题

GPTHub

114 36

AI下一步已明确，黄仁勋预测的方向，特斯拉和OpenAI疯狂追赶

GPTHub

8 12

「AI 复制人」月入 3000 万，她成了 2 万人的「共同女友」

GPTHub

10 60

TikTok正测试人工智能聊天机器人Tako：可帮助用户发现内容

GPTHub

6 24

谷歌渴望更多数据来训练其人工智能——但代价是什么？

DARPA 发起为期两年的竞赛，以构建人工智能驱动的网络防御

人工智能会让我们变得愚蠢吗？

相关文章