互联网已经被 AI 污染的差不多了
最近一张用 AI 批量做号的微信截图流传在各个群里,有人自爆用 AI 在小红书做了一个庞大的虚假账号矩阵,通过售卖账号进行变现。
这并非个例,你有没有一种感觉,现在刷手机的时候越来越分不清真实和虚拟了?当你浏览社交媒体、搜索信息或阅读文章和观看视频时,你真的能分辨出哪些内容来自人类,哪些又是 AI 的产物?更令人不安的是,你如何确定你所看到的 " 事实 " 不是 AI 的幻觉?
AIGC 是一场互联网革命,不幸的是,它的兴起也伴随着内容滥用。大量低质量、AI 生成的关键词堆砌的内容倾泻到网络上,充斥在搜索引擎的结果当中,互联网上很大一部分内容已沦为垃圾信息。
小红书上的 " 细糠 " 可能是 AI 生成的,音乐平台则充斥着 AI 生成的歌曲,Spotify 上的 AI 翻唱乐队,把流行歌曲的翻唱添加到正常歌单当中,与真实艺术家演唱的歌曲一起播放,获得了数百万的播放量并获得版税。最近,美国北卡罗来纳州一名男子被捕,他用 AI 制作了数十万首歌曲,并通过 AI 机器人刷播放量,获利超过 1000 万美元。
连你在亚马逊上买的电子书可能也是 AI 写的。一本使用 ChatGPT 撰写的关于野生蘑菇烹饪的电子书,甚至建议读者用舌头去尝一尝的方式来识别蘑菇种类。
最悲哀的是,这些垃圾书实际上也赚不了多少钱,赚钱的是教学生制作垃圾电子书的教程,这完全是一场骗局和垃圾的闭环,而受害者是热爱阅读和写作的读者与作者。
亚马逊上出现了大量 AI 生成的垃圾书籍内容农场从未如此容易
" 内容农场 " 是指为了牟取广告费等商业利益或出于控制舆论、带风向等特殊目的,快速生产大量网络文章来吸引流量。让用户在寻找有用信息时不得不耗费更多时间和精力。为了吸引眼球,一些账号甚至故意发布虚假信息或夸大事实,诱导用户点击。
发布 " 西安突发爆炸 " 虚假新闻的账号所属机构,最高峰一天能生成 4000 至 7000 篇假新闻,每天收入在 1 万元以上,而公司实际控制人王某某经营着 5 家这样的机构,运营账号达 842 个。
以前的内容农场借助廉价劳动力,批量产出文章,比如此前的山东 " 新媒体村 " 以及北马其顿共和国的假新闻影响美国大选等案例。现在,内容农场也正式从手工作坊进入了 AI 时代。
AI 工具使得内容生成成本大大降低,单次浏览的收入即可覆盖成本。根据 IT 技术博主阮一峰的计算,使用某国产 AI 模型生成一篇文章仅需 0.00138 元,而单次浏览的广告收入约为 0.00145 元,这种模式使得内容农场比以往更容易盈利。
" 内容农场从来没有这么容易过,我先买一个热搜数据库,然后花费 100 多元,就能生成 10 万篇文章,最后加入广告,做好 SEO,网站上线,等着用户点进来就行了。不难想象,资讯类网站未来大概都是这个模式。真人生产内容,成本太高,无法与 AI 内容抗衡,注定只能是小众网站。"
除了内容农场,一些平台也在利用 AI 进行 SEO,把自己打造成为 " 内容农场 "。
豆包此前为了在搜索引擎里权重更高,将用户和 AI 的聊天页面生成静态网页,然后被搜索引擎抓取,给自己引流。开发者社区稀土掘金也同样通过 AI 批量生成大量内容被谷歌抓取,这些内容缺乏实质价值,引发用户广泛批评。
虽然目前豆包和稀土掘金都已经移除相关内容,但中文云计算网站和开发者社区仍然是内容农场的重灾区。
AI 搜索引擎 Perplexity 通过对搜索结果添加脚注,链接到互联网的实时信息源来确保结果的准确性,PerplexityCEO 也对外声称 " 引用来源是我们的通行证 "。
但根据 AI 内容检测平台 GPTZero 在今年 6 月进行的一项研究,Perplexity 用户平均搜索三个关键词,就会遇到 AI 生成的内容。像 " 日本京都的文化节 "、" 人工智能对医疗行业的影响 "、" 泰国曼谷必尝街头美食 " 以及 " 值得关注的年轻网球选手 " 等搜索,返回的结果中包含了引用 AI 生成材料的答案。
这项研究揭示了 Perplexity 这样的 AI 搜索产品在提供优质来源方面的一个缺陷,也反映出互联网正日益充斥着 AI 生成的内容。
关键词 " 日本京都的文化节庆 ",唯一引用来源是一篇完全由 AI 生成的文章
Perplexity 还推出了 Pages 的功能,使用者可以把搜索与生成的内容制作成公开页面,而且搜寻引擎也能收录。后续也传出一些神奇用法,例如假装询问 AI 关于自家产品的内容,然后利用 Perplexity Page 帮自己的产品做一个页面,最后被搜索引擎收录,达到引流的目的。根据 aHrefs 的数据,Perplexity 每月有 240 万访客来自谷歌。
360AI 搜索也曾经透露,在晚上会借助算力资源使用 AI 生成答案,每天产生数百万的网页供应给搜索引擎。
从 " 内容社区 " 到 " 内容坟场 "
内容社区也是 AI 入侵的 " 重灾区 ",Quora 曾经是社区氛围良好的问答社区,有评论形容其为 " 更有条理的 Yahoo Answers,更古典的 Reddit,更主观的维基百科 "。而如今的 Quora 却成为了一个信息垃圾场,充斥着无意义的 AI 生成的内容,以及一大堆答非所问的内容。
一开始一些用户使用 ChatGPT 生成答案,然后秒成 Quora 的 " 专家 ",后来 Quora 直接在页面上集成了 ChatGPT 生成的答案,而这些错误的答案又传播到了谷歌的搜索结果中。
" 鸡蛋可以被融化,常见的方法是用炉子或微波炉加热 "
一位 2013 年就开始使用 Quora 的用户评论道:" 最终,Quora 将充斥着机器的提问、机器的回答,别无其他。"
开发者也在借助 AI SEO 获取流量,Eightify.app 和 Glarity.app 是两个 Youtube 视频总结插件,通过 AI 技术批量生成图文并茂的文章,在短时间内获得了巨大的流量增长。Eightify.app 自 2022 年 8 月开始运营,其月访问量从几十万迅速攀升,于 2023 年 1 月达到峰值 600 多万。紧随其后的 Glarity.app 也在 2023 年 2 月采用类似策略,月访问量从 1 月份的 10 万激增至 3 月份的 1200 多万。
SEO 行业从业者哥飞告诉硅星人,搜索引擎也好,内容平台也好,他们不是要干掉 AI 生成的内容,而是要干掉低质量内容。这些 AI 生成内容能通过谷歌算法审核,表明其质量达到了一定水准,但由于流量增长过快,Eightify.app 和 Glarity.app 引起了全球 SEO 从业者的关注。" 如果不干掉,那么就可以认为谷歌默许这样做,大家就会跟风这样做。"
谷歌最终采取了人工干预措施。要求这两家网站停止批量生成内容的行为,并删除此前生成的相关内容。最新数据显示,干预措施生效后,Eightify.app 的月访问量已降至 60 万,而 Glarity.app 更是锐减至 20 多万。
SEO 污染这样的事情其实一直存在,以前没有 AI,也有各种小偷爬虫、伪原创工具,只不过随着 AI 的发展,这场 " 猫鼠游戏 " 似乎对于平台来说越来越难了。
一个有趣的例子是 IsaacJinyu 在知乎的一次 AI 卧底实验,他通过知乎问答数据反向生成 AI 数据,然后微调 Qwen2-7B,去除文字中的 AI 味。这个实验从 7 月 5 日开始,到 8 月 3 日整整一个月,没有任何人发现账号 AI 的身份。
学术圈也被 AI 攻陷
日益增多的 AI 生成内容其影响远不止于屏幕,这种潜移默化的侵入正悄然影响学术领域。
进年初,西安交大一篇论文因为使用 AI 生成的配图而被撤稿,相关图片中,大鼠长出了诡异的器官,细胞信号传导图像电路板。
在另一篇论文的一张配图中,小腿和手臂的骨骼数量出现了明显的错误。
这只是 AI 渗透学术领域的冰山一角,在谷歌学术上搜索 " 截至我上次知识更新 "(as of my last knowledge update)或 " 我没有访问实时数据的权限 "(I don't have access to real time data),会出现大量借助 AI 生成的论文。
学者们在压力之下需在期刊上发表论文,选择了使用 AI,而学生在 AI 的帮助下完成作业和论文已经成为一种常态," 人工代写 " 论文变成了 " 人工智能 " 代写。
AI 训练的恶性循环
AI 模型的准确性在很大程度上取决于其训练数据的质量。" 垃圾进,垃圾出 " 这一短语起源于计算机科学的早期。尤其对于数据分析和 AI 而言,这一原则强调了一个基本观念:输出质量与输入质量紧密相关。
AI 生成的内容激增,但这些内容并非凭空而来,而是基于大量人类创造数据的训练。但在这个过程中存在一个潜在的缺陷,随着这些 AI 生成的内容重新流入互联网,最终又成为训练未来 AI 模型的一部分数据。正如用牛喂养牛导致了疯牛病一样,用大量由 AI 创建的数据来训练 AI 同样具有破坏性。这是一个自我消耗的过程,导致输出质量越来越低。
谷歌在 Google I/O 2024 大会上演示了 AI 简要概括某人未读的邮件,随后演示了生成新邮件以供回复的功能。不难推断,收件人将利用 AI 来阅读这些邮件,并生成新的 AI 回复,让其他人也用 AI 阅读。这类功能普及之后,每个人的收件箱是否会充斥着没有人真正会去阅读或撰写的邮件?
AI 能制作的又何止是邮件?AI 为无人阅读的 AI 帖子撰写无人阅读的 AI 评论,生成无人聆听的包含 AI 歌曲的歌单,还能为无人访问的网站创作无人观赏的 AI 图像。
AI 生成的《Nothing, Forever》在一个无人观看的 Twitch 直播间 24 小时不间断地播放着。
AI 出现之前互联网就充满垃圾,只是有了 AI 之后,生产垃圾的效率更高了,制造的垃圾产量庞大,而我们在处理这些垃圾的能力上显然是不够的。或许在不久的将来,互联网上的合成图像将比真实图像更多,合成网站将超过真实网站,AI 生成的文本也将多于真实文本:由机器产生的无尽内容,堵塞了一切,浪费每个人的时间。
AI 图片污染互联网图片库
神话中的衔尾蛇(Ouroboros)吞食自己的尾巴,象征着无节制增长与自我消耗的陷阱,其圆形形态也象征着无限和生命的循环。在现在的故事中,这条蛇代表着 AI 的世界,而它的尾巴则是源源不断的 AI 生成的内容。这个循环就在我们眼前发生着,也许在这条蛇还没有完全长大前,我们还有机会救互联网一把。