行业

APP下载

请登录登录

OpenAI自研反AI神器，憋了两年啥也不是？

高海晏 原创 2024-08-09 17:45:21

科技

由华为云驱动

文字间的猫鼠游戏。

ChatGPT刚发布时，一度成为学生党写论文时的神助攻。

而现在，恐怕要变成学生党的噩梦了。

据内部消息透露，OpenAI已经悄悄研发出了一种“反抄袭神器”，能够精准检测是否有人在论文或研究报告中动用了ChatGPT。虽然学生们使用AI作弊的行为让教育界焦头烂额，但OpenAI却迟迟按兵不动，没有公开这项技术。

图片来源：视觉中国

知情人士和内部文件揭示，这个项目在OpenAI内部已经上演了长达两年的拉锯战，而实际上它早在一年前就已经箭在弦上，蓄势待发。

“就差按下那个按钮了，”一位知情人士如是说。

OpenAI为何对这个功能如此纠结？更重要的是，这个所谓的水印真的能百分百破解GPT生成的文本吗？

给GPT打“码”

想象一下，ChatGPT就像一个超级聪明的文字接龙高手。它总是能猜到下一个最合适的词，这些词在AI界被称为「词元」（Token）。

比如说，当你抛出“我最喜欢的水果是__”这样一个开头，ChatGPT的大脑就会开始疯狂运转，根据上下文语境，它会在“苹果”、“香蕉”、“草莓”、“榴莲”等选项中随机选择一个。这个过程，就是大语言模型（LLM）的日常工作。

然而，OpenAI正在酝酿的这个反作弊神器，打算给这个选词过程来个暗度陈仓。它会悄悄地调整词语的选择概率，在「词元」的选择上埋下了一些特定的概率模式。

这种水印虽然对人类读者来说毫无察觉，但在OpenAI内部的检测下却无所遁形。知情人士透露，只要ChatGPT产出足够多的文本，这种水印的有效率能高达99.9%。

那么，这个水印到底是如何运作的呢？

PConline根据已有资料了解到，可能是通过改变一个句子中词元出现的频率实现。

让我们来玩个文字游戏：

还是那句“我最喜欢的水果是__”。

在联系前文的语境下，所有水果出现的概率可能一样。但有了水印技术，这个概率分布就会被稍微改动一下。苹果和橙子一起出现的概率最高。这种微妙的概率改变，就是GPT所埋下的水印，像是给整片文章埋下了一串看不见的暗号。

OpenAI打水印简易示意图（制图：高海晏）

这种打暗号的高明之处在于，即便不是最佳选词，对普通读者来说也不会感到突兀。但在OpenAI的解码器下，这些文字就会暴露其AI生成的真身。

Reddit网友补充解释道，这是在限定语境下，词元概率从随机到刻意的过程。想象AI在写作时偷偷地抛了一枚看不见的硬币。对我们人类来说，这枚硬币的正反面完全随机。但对OpenAI来说，这枚硬币每次的反转都代表一种规律，组成了一种只有它才能破译的密码。

Reddit网友解读

不过，这个水印究竟是否可信，我们还得打个问号。毕竟OpenAI至今仍在藏着掖着，没有公开具体的技术细节。仅仅只是在8月7号悄悄于官网发布了一篇博客，承认内部团队在研究给GPT打水印这回事。

OpenAI还在为是否公开这个水印而举棋不定，其实市面上已经涌现出各种各样的AI文本检测工具了。

AI与反AI的“猫鼠游戏”已经悄然开始。

AI文本届福尔摩斯

2024年5月，谷歌推出了一款名为SynthID的“文字水印”工具，它给Gemini AI生成的每一段文字都打上了一个看不见的标记。

处于Beta版本的SynthID原理与预测的OpenAI水印技术如出一辙。它给每个词元都赋予了一个神秘的概率分数。当AI在选词时，SynthID就会悄悄地调整这些分数。这种做法既不影响文章的质量，又能留下AI的“数字指纹”。

谷歌 SynthID演示更为复杂的打水印效果（Src.谷歌官网）

谷歌信誓旦旦地表示，SynthID特别适用于长篇幅、多样化的文本，如文章、戏剧剧本或电子邮件。

想象一下，在一篇AI生成的文章中，每个句子可能藏有十多个这样的记号，而整个页面可能暗藏数百个。这些记号与AI的选词模式交织在一起，形成了一个独特的水印。并且，至少要有三个句子，这个水印才能真正发挥作用。文字越长，这种水印就越容易被发现。

在欧美学术界和新闻圈，AI文本检测已经成了学生、老师和记者等必学技能。其中，最炙手可热的莫过于GPT Zero了。

GPT Zero官网截图

这个由普林斯顿大学学霸爱德华·田（Edward·Tian）开发的AI模型，如同数字世界的福尔摩斯，专门破解AI生成的文字之谜。它的侦破理念基于深度学习算法和统计特征，就像是给每段文字做了一次CT扫描。

作为市面上成熟且商业化的产品，GPT Zero的付费模式从10～23美元（约人民币71～163元）/每月收费，提供多字数的AI检测筛查、多语言检测、语法建议等功能。能够让用户通过给出的AI检测报告，逐字逐句人工修改，减少AI感。

GPT Zero收费标准

不过，GPT Zero也不是万能的。面对复杂或混合的文本时，它也可能会犯迷糊。而且，它对于其他语言的检测并不准确。虽然GPT Zero自称准确率高达99%，但仍有1%的机会看走眼。

这不，就有小红书网友吐槽说，自己随手写的东西竟然被学校判定为AI作品。这位网友无奈地表示：“我写的东西就是没有逻辑罢了。”

小红书网友吐槽自己的原创被识别为AI

箭在弦上，为何不发？

那么问题来了，为什么OpenAI迟迟不发布这款文字水印功能呢？

一是给文字打上AI水印并没有那么容易。

文字更为散装，而图像更加整体。同一个想法可以用无数种方式表达，就像一个故事可以有千百种讲法。每个词既独立又多义，这让统计分析的难度大大增加。相比之下，图片虽然也构成复杂，但在数字（Digital）世界里，它们就像是由积木搭建的城堡，每个像素都是一块积木，在“积木”上打标记反而更容易被AI和人眼捕捉到。

图片无限放大后可以看到一个个像素（摄影/制图：高海晏）

并且，聪明的网友发现，只需通过来回翻译不同语言即可破解所谓的GPT文字水印。Reddit网友分享教程：把AI生成的文字先翻译成别的语言，再翻译回来，就能巧妙地避开生成式AI文本的套路感。

OpenAI自己也承认，使用翻译软件很容易绕开它们的水印。

Reddit网友发帖回应如何躲避AI生成文本的尴尬

第二，是否有必要给文字打上水印也存在争议。

MIT科技评论泼了盆冷水：许多人用ChatGPT只是给电子邮件润色或拼写检查。要是给所有AI生成的文本都打上水印，岂不是要给这些无辜路人扣上“作弊”的大锅？

OpenAI内部也是一片争论声。如果这个“火眼金睛”掌握在少数人手中，那还有什么意义？但如果人人都能使用，那些心怀不轨的人岂不是很快就能破解水印技术？

更让人头疼的是，一项针对ChatGPT忠实用户的调查显示，近三分之一的人表示，如果知道有反作弊技术，他们就会失去兴趣。这就像是给自己的得力助手戴上了枷锁。

不过市面上层出不穷的AI检测工具的确反映了用户对版权问题日益增长的担忧。

今年7月，艺术家们甚至开始求助于Glaze这样的工具，试图用AI来对抗AI，在图像中添加人眼难以察觉的数字噪声，以阻止图像生成器复制他们的独特风格。

Glaze官网截图

如今，创作者们正在寻求各种保护措施来规避AI带来的风险，科技巨头们也在不断更新其产品条款。