互联网巨头，若何正当地「偷」你的数据训练

2024-07-03

你知道吗，自己的数据，现在已经最先正当地被互联网大厂们用作 AI 训练了。

在新一波的 AI 竞赛中，由于训练模子需要大量数据，当互联网的通俗数据挖掘殆尽，平台上大量用户小我私人内容，便成了充满诱惑的矿藏。

一些硅谷的科技公司云云盼望新数据，最先偷偷摸摸把 AI 训练加入到数据使用政策中，赋予自己使用人们数据的权力。

在已往一年多里，包罗谷歌、Meta、Adobe、Zoom 和 X 等大公司纷纷更新其服务条款或隐私政策，允许自己行使用户数据来训练天生式 AI 模子。

这些互联网大厂，都偷偷在「服务条款」里塞进了什么货？

硅谷巨头的「小动作」

随着科技巨头对数据的盼望越来越大，它们正在仔细重写其条款和条件，以包罗「人工智能」、「机械学习」和「天生式人工智能」等词语。

为了阻止用户对隐私问题的反感，公司有时悄悄地举行这些更改。在许多情形下，用户会在未阅读一字的情形下点击赞成，毫无警醒地接受协议。

下面是硅谷大厂们在用户服务条款中各自「夹带私货」的细节：

谷歌

在 2022 年终，当 OpenAI 宣布了 ChatGPT 并引发了全行业的追赶竞赛后，谷歌的研究职员和工程师最先讨论若何行使其他用户数据。数十亿字的内容存储在人们的 Google 文档和其他免费 Google 应用中，然则公司的隐私政策限制了他们若何使用这些数据。

那时，谷歌的隐私政策划定公司只能使用公然可用信息来「辅助训练谷歌的语言模子和构建像 Google 翻译这样的功效」。

去年 6 月，据纽约时报报道，谷歌的执法部门要求隐私团队起草语言，以扩展公司可以使用消费者数据的局限。

去年 7 月，谷歌对其隐私政策举行了修改，增添了公共信息可用于训练其 AI 谈天机械人和其他服务的内容。

谷歌将 Bard 和云端 AI 加入到用户条款中｜NYT

「我们使用公然可用的信息来辅助训练谷歌的 AI 模子，并构建诸如谷歌翻译、Bard 和云 AI 功效等产物和功效。」

为了抚慰用户，谷歌声明称，其隐私政策的换取「只是澄清了像 Bard（现为 Gemini）这样的新服务也包罗在内。我们并没有由于这种语言转变而最先在其他类型的数据上训练模子。」

谷歌的 AI 训练固然也有用最私人化的数据，如给同伙和家人的信息。谷歌谈话人示意，在获得一小群用户允许的情形下，谷歌被允许在某些方面使用他们的小我私人电子邮件训练其人工智能。

Meta

去年 Meta 就更新了相关隐私政策，用户「在我们的产物和服务上提供的流动和信息」将被用来训练其 AI，包罗在使用像其 AI 工具时所写或所说的一切。

Meta 示意，其 AI 不会读取用户在 Messenger 和 WhatsApp 等应用上与同伙和家人之间发送的新闻，除非用户在新闻中 @ 了其 AI 谈天机械人。Meta 将与 AI 互动的责任推给用户，示意人们应该「注重」他们在提醒中所说的话，好比不要包罗任何小我私人信息，如家庭地址或电话号码。

Meta 声明示意：「我发送给天生式 AI 功效的信息会发生什么？AI 可能会保留并使用您在谈天中分享的信息，以提供更个性化的响应或相关信息，我们可能会与可信托的互助同伴（如搜索提供商）共享您提出的某些问题，以提供更相关、准确和最新的响应。」

「使用公然可用的信息训练人工智能模子是整个行业的老例，并非我们服务独占。」Meta 谈话人在声明中说。

X 在条款后方补了一句对于人工智能模子训练的事项｜NYT

马斯克一直在构建一个 AI 项目。去年 9 月，X 在其隐私政策中添加了一句话，关于机械学习和人工智能。

「我们使用网络到的信息来提供和运营 X 产物和服务。我们还使用网络到的信息来改善和个性化我们的产物和服务，以便您在 X 上获得更好的体验，包罗向您展示更相关的内容和广告、建议您关注的人和主题、启用和辅助您发现关联公司、第三方应用和服务。我们可能会使用网络到的信息和公然可用的信息来辅助训练我们的机械学习某人工智能模子，以实现本政策中概述的目的。」

爱零食创始人公开道歉，零食大战背后企业的格局和胸怀

Snap

Snap 有些服务条款的换取只有几个字。另一些则新增了整段内容来注释天生式人工智能模子的事情原理，以及它们对用户数据的接见类型。

例如，今年，Snap 更新了其谈天机械人 My AI 的数据网络的隐私政策。Snap 提醒用户不要与其人工智能谈天机械人分享隐秘信息，由于这些信息将用于训练。

Snap 对于 My AI 谈天机械人的条款改动较多｜NYT

「My AI 是一个基于天生式 AI 手艺构建的谈天机械人，设计理念确保平安。天生式 AI 是一种正在开发的手艺，它可能会提供有私见、不准确、有害或误导性的谜底。以是，你不应该依赖它的建议。您也不应该分享任何隐秘或敏感信息——若是您这样做，My AI 会使用它。」

「当您与 My AI 互动时，我们会使用您分享的内容和您的位置（若是您已启用 Snapchat 的位置共享）以改善 Snap 的产物，包罗增强 My AI 的平安性，并个性化您的体验，包罗广告。」

Zoom

Zoom 去年 7 月最先更新其服务条款，说明会将用户数据用于训练 AI，但遭遇用户和隐私提倡者的大量指斥。在面临社交媒体上的强烈否决声音后，Zoom 去年 8 月又再次更新了服务条款，澄清未经赞成不会使用视频、音频或谈天内容。

更新后的服务条款仍然要求用户「在此授予 Zoom *性、全球性的、非独占性的、免版税的、可转允许和可转让的允许及所有其他权力」使用客户内容。

这些权力包罗「重新分发、宣布、导入、接见、使用、存储、传输、审查、披露、保留、提取、修改、复制、共享、展示、复制、分发、翻译、转录、创作衍生作品和处置」客户内容。

条款不再详细提及 Zoom 有权就客户内容举行「AI 和 ML 训练」，而是更模糊地提到「服务开发、营销、剖析、质量保证、机械学习、人工智能、培训、测试、服务、软件或 Zoom 其他产物、服务和软件的改善，或以上任何组合。」

Adobe

今年 6 月初，Adobe 因在其隐私政策中加入了一句关于自动化的短语，激怒了不少创作者，许多用户将其解读为与 AI 数据抓取有关。

「我们接见您的内容：我们可能会通过自动和手动方式接见、查看或聆听您的内容，但仅在有限的方式下，而且仅在执法允许的情形下。」

Adobe 公司的用户对于数据被拿来用 AI 训练对照敏感｜NYT

这些条款影响了 Adobe 创意云套件的跨越 2000 万用户，一些用户以为这允许 Adobe 接见、查看他们的内容，包罗受保密协议珍爱的作品。一些人以为 Adobe 正在监视他们的事情，吸收用户的艺术作品，并可能将其用于训练 AI 模子。

在用户强烈否决后，Adobe 更新了服务条款，明确示意不会使用客户作品训练 AI。

Adobe 通过博客文章澄清，这些换取是为了检测和删除非法内容，例如儿童色情质料（CSAM），以及滥用内容或行为，包罗垃圾邮件和网络钓鱼。Adobe 不会使用存储在 Adobe 云上的文件来训练其 Firefly AI。

提前占好「免责」的坑

不外，巨头们的小动作，照样有羁系在看着的。

美国联邦商业委员会（FTC）耐久以来一直盯着与公司隐私政策有关的诱骗性和不公正行为。已往曾起诉过那些以偷偷摸摸的方式更改隐私政策、损坏对消费者的现有答应的公司。

今年 2 月，美国联邦商业委员会忠告科技公司，改变隐私政策以追溯性地抓取旧数据可能是不公正或诱骗性的，将追究「悄悄」更改隐私政策以挖掘用户数据用于 AI 的公司。

FTC 指出，公司可能会被诱惑从其用户群中挖掘现有数据以供 AI 模子使用，有「壮大的商业念头」。FTC 称公司潜在的逆境是利益冲突。「市场介入者应注重，任何背弃其用户隐私答应的公司都可能冒犯执法。」

不外，就在上周，微软 AI CEO Mustafa Suleyman 公然称互联网的公然内容可以被免费拿来训练 AI，云云直白的谈话引起了强势的舆论反弹。

从硅谷巨头们在用户使用条款中的改动可以看出，各家确实都在行使产物优势，将用户数据用于 AI 训练之中。不外，详细哪些数据会拿来训练，哪些不能，行业内仍未杀青一个共识——一项手艺泛起的早期，一定会泛起这种规则缺乏的「狂野西部」的阶段。

而上述被动作手脚的使用条款，无疑是巨头们为之后免责提前占的坑。不出意外的话，海内一种大厂和 AI 公司，应该也已经在用户条款中修改、添加了 AI 训练的内容。

对于通俗用户而言，对于长达数十页的用户使用条款，99% 都市直接无视。然则，若是这个产物，能通过有限的数据复制出一个「你」的时刻，用户是不是该更郑重一些？

上一篇：合成数据企业「光轮智能」获数万万Pre-A轮融资，下一篇：河南，大办职业学校-香港期货