AI 与爱欲 - 虫子游戈

《列子・汤问》中有一个偃师的故事，说是有一巧匠制造了一个假人，此假人能歌善舞，从外观看基本与真人无异。周穆王观看过这个假人的表演之后感慨说：「人之巧乃可与造化者同功乎？」即人类技艺的精巧也许能与造物主比肩？

我不知道造物主的技艺究竟如何，但却看到人类已经创造出了颇为强大且相当实用的人工智能（AI）。这些人工智能大都依赖于统计学，善于发掘出巨量数据中的模式并加以利用；然后它们具备了堪与人类比肩乃至更胜一筹的影像、声音和文本的分析与生成能力，也由此被应用到了各种任务上，比如人脸识别、语音助理和聊天机器人数字客服等等，而不可避免地，AI 也在色情领域找到了应用场景。

先不谈道德伦理方面的问题，AI 在色情领域的应用已有不少，包括换脸、人脸或隐私部位打码、色情聊天机器人、色情小说或色情影视生成以及结合机器人技术的智能性爱机器人。可以毫不夸张地说，几乎每一种 AI 技术都能在色情领域找到应用场景。

本文纯为分享目的，不为文中提到的任何公司、产品、服务和技术背书。

巨大的市场潜力#

有需求的地方就会有市场。食色，性也。「性」是人类普遍具有的需求，因此自然出现一个规模不小的市场，而且其规模还在以肉眼可见的速度的增长。

据市场调研公司 Persistence 估计，2021 年数字成人内容市场价值约为 381 亿美元，2022 年的约为 448 亿美元；他们预计到 2032 年，这一市场的规模将达到 2010 亿美元。而根据 Gitnux 发布的《2023 年色情内容制品产业统计数据和趋势》估计，全球色情内容制品 *（Pornography，包含色情图像、视频、文本、音频、游戏等）* 产业的市场规模大约为 970 亿美元。此外，该报告中还提到了一些有趣事实：全世界大约 30% 的互联网下载与色情相关、大约 25% 的搜索引擎查询与色情相关、成人网站数量超过 420 万，占网站总数的 12%、互联网色情占美国电商销量的 20% 左右。

性玩具市场也不容小觑，据 Business Wire 预计，到 2030 年，全球性玩具市场的规模将达到 623.2 亿美元。

这里给一个数据对照之下，根据《中国互联网市场前景及投资机会研究报告》，按收入计，2022 年全中国的移动社交网络市场规模为 2050 亿元，即大约 284 亿美元。

AI 的色情应用#

既然有利可图，而 AI 又是一种炙手可热、具有巨大潜力的新技术，那么就一定会有人尝试将 AI 应用于色情。

色情内容检测#

检测色情内容应该算得上是 AI 在相关领域最简单的应用。根据具体内容类型，所涉及的技术包括文本或音频中的关键词检测、色情图像检测、视频中色情内容的检测等。

这类技术在多年前就已经开始得到部署和应用，尤其是对于社交媒体上的内容审查。

举个例子，微软的 Azure 认知服务就提供了内容审查器，可以让用户使用「机器辅助图像审查来审查图像中是否存在成人和猥亵内容」。

再以 YouTube 为例，据其社区准则执行情况报告，2023 年 1 月到 3 月之间，YouTube 一共移除了近 649 万个视频，其中 10.2% 的移除原因是「裸露或色情」。而在整体被移除的视频中，超过 72% 的被观看次数不超过 10 次。这样的审查成果很大一部分功劳要归功于「自动标记（Automated flagging）」—— 超过 608 万视频被移除都是机器自动完成的。

据 Dataconomy 报道，YouTube 使用了卷积神经网络来分析视频的每一帧，检测其中的显著特征，进而筛查出违反 YouTube 社区规定的视频。

随着视频直播的盛行，防范直播内容出现色情内容也成了平台方的一个重要任务。比如 2016 年就有报道称「各大科技公司已经掌握了相关技术，能够屏蔽直播或录制视频中的色情信息。」

对于想要在网上冲浪过程中免受色情内容影响的用户（比如为了净化孩童的上网环境），一种选择是使用色情拦截器（porn blocker）。已经有一些提供商在提供相关服务了，比如 xGuard 和 Canopy Internet Filter。

打码和消音#

打码是指使用马赛克技术遮蔽图像和视频中部分内容的做法，而消音则是对音频采取类似的做法。

尽管在色情领域，对内容打码或消音往往是颇具争议的做法，但受限于具体的法律或隐私需求，相关技术对特定组织或个人依然具有重要价值。

用 AI 给色情内容打码并不是什么新鲜事，其工作过程描述起来也很简单：首先识别出需要打码的部分，然后用马赛克遮蔽住这部分。因此，这个过程需要用到的 AI 技术是图像识别或人脸识别。

消音方面也是类似，即首先使用语音识别检测出需要消音的内容，然后对其静音或使用「哔」声或其它声音替代。

哔~

图像和语音识别技术已经经历了多年的长足发展，现目前只要有足够的标注良好的数据，人们就能训练出准确度非常高的图像和语音识别模型。

以图像识别为例，根据 Papers With Code，现在表现最佳的模型在 ImageNet 数据集上的 Top-1 准确度（即头号结果就是所需结果的概率）已经能达到 91.1%。

用户只需对这些模型稍加微调，就能将其用于色情内容。

字幕生成#

喜欢欣赏异域风情的观众可能会面临一个问题：听不懂视频中表演者在说什么。即便许多用户在观看色情视频时并不在乎能不能听懂对话，但也有许多用户希望能够听懂，尤其是对于具有不少剧情的作品。于是乎，基于 AI 的字幕自动生成技术就在色情领域有了用武之地。

从技术角度看，这类技术并不复杂，其核心是几年前就已经相当成熟的语音识别和机器翻译技术。现在，用户只需要在搜索引擎中输入关键词「AI 生成字幕」，就能找到大量相关工具和服务，它们不少都支持多种语言，而且使用成本也普遍不高。

当然，将这些技术用来给色情视频生成字幕是完全顺理成章的事情，比如 EasySub 推出的 AV 字幕生成器，其宣称自己的字幕生成准确度超过 95%。

色情内容生成#

生成技术可以说是目前 AI 相关从业者最为关注的技术方向，使用生成技术来生成色情内容也就自然是顺理成章的事情了。

在学术界，研究者大都更关注一般性的问题，专门针对色情内容开发的情况非常少。因此相关实践者的最佳方法是取用针对一般性任务预训练过的模型，然后再使用色情内容数据集对模型进行微调。

利用生成技术来制作色情内容有一些优势：

个性化定制
降低内容生产成本
为创作者提供灵感

下面我们将分主题介绍一些 AI 在色情领域的应用。

文本#

以 ChatGPT 为代表的大型语言模型（LLM）的兴起让我们看到了色情文学创作的新可能性，而且毫无疑问这类技术会被用来写色情故事，比如 DreamPress 就发布了一个色情故事生成器服务，能够根据用户提供的标题、描述、类型和标签自动生成色情文本。

据介绍，该服务使用了 GPT 技术。GPT（Generative Pre-trained Transformer）是一种基于 Transformer 模型和大规模预训练的神经网络。Transformer 是一种基于自注意力机制的神经网络架构，能够处理长文本序列并捕捉全局依赖关系。GPT 的目标是生成与给定输入上下文相关的连续文本。

Transformer 架构，图片来自论文《Attention Is All You Need》

简单来说，GPT 使用了一种称为「预训练 - 微调」的两阶段方法。在预训练阶段，GPT 通过使用自回归的方式来训练，即根据之前的词预测下一个词。模型通过大量这样的预测任务来学习上下文表征，从而理解词语之间的关联和句子的语法结构。在预训练完成后，GPT 进入微调阶段。在这个阶段，其使用有标签的特定任务数据集来微调模型，以使其适应该特定任务的要求。

Hugging Face 上也托管着一个基于 GPT-2 开发的色情故事生成器 nsfw-story-generator2，其已经被下载了上千次。

生成好色情故事文本后，用户还能使用图像生成器为生成的色情故事增添插图，但这是后文的话题。

声音#

现在文本转语音（TTS）技术已经得到了相当成熟的应用，你能看到机器配音的视频、与语音助手对话、听各种音色的自动有声书朗诵…… 但我们也能明显感觉到目前市面上的 TTS 技术输出的语音依然会有不自然的地方 —— 不管是语速还是语音中暗含的情绪，人们总是能轻松分辨合成语音和自然语音。

为了获得更自然的机器语音，强大的 AI 是必不可少的。

目前市面上已有不少相当出色的 TTS 服务，虽然它们大都可用于创建色情有声书或做色情视频配音，但整体效果依然不尽如人意。

图像和视频#

在大英博物馆的展品中有这样一块陶片，它来自距今大约 3500 年的古埃及，其上描绘了一男一女结合的场景。

下载 (56)

图片来自大英博物馆网站

笔者猜想，大概人类自从学会创作图像以来，就几乎马上开始描绘色情场景，毕竟就人类的感官方式而言，图像是最直观的呈现方式。

大概也是因为这个原因，图像和视频生成技术一出现，便有人用来搞黄色。

目前来看，图像和视频生成技术的应用目的大致有三类：换脸、去马赛克和生成新内容。

换脸#

以 Deepfake 为代表的换脸技术一开始就在色情领域找到了用武之地 —— 当然，未经许可进行换脸在大多数国家都是非法行为；而实际上 2019 年的一项研究发现 96% 的换脸色情视频都没有得到当事人许可。

从技术角度讲，目前大多数 Deepfake 都是基于生成对抗网络（GAN）。简单来说，GAN 包含两个机器学习模型 —— 生成器和对抗器。其中一个模型的目标是生成视频并使另一个模型无法识别其是否为合成视频，而另一个模型的目标自然是辨别输入样本是否为合成视频。这两个模型在对抗中不断强化，其生成的视频与真实视频的差距也会越来越小。

Example-of-the-Generative-Adversarial-Network-Model-Architecture

GAN 工作过程示意图，来自 machinelearningmastery.com

从具体应用看，目前相关实践者最常见的做法是将色情视频中人脸替换成其他人脸（比如名人、虚拟人物或甚至自己的熟人）。尽管这种做法大都非法，但还是有人把这当成了生意。笔者使用「Deepfake porn」关键词在谷歌上进行搜索，前 10 条搜索结果都是提供名人换脸色情视频的网站。

英国导演 Rosie Morris 2023 年的纪录片《My Blonde GF》呈现了英国诗人和小说家 Helen Mort 遭遇色情视频换脸的经历。Mort 描述说：「有一个女人，她坐在床边。她有我的脸，但嘴不是我的，她正在 [进行一种性行为]…… 那个女人的皮肤比我的要晒黑很多，而这个女人确实带有我的纹身。」

由于现目前已经有一些 AI 换脸技术具备了足以乱真的能力，因此已经引起了社会的广泛关注。

演员工会 - 美国电视和广播艺人联合会主席 Fran Drescher 也批评说：「性虐待，无论是身体性虐待还是数字性虐待，都不应被视为『个人表达』而被原谅或允许，也不应被容忍。Deepfake 是一种侵犯、物化和剥削行为，必须将其定为非法并受到法律惩罚。」

现在，已经有些地方正在针对相关问题拟定法律，比如美国纽约州众议院议员 Joseph Morelle 提出的《Preventing Deepfakes of Intimate Images Act》（防止深度伪造亲密影像法案），该法案希望将「未经许可分享经过数字方式修改过的亲密影像」的行为认定为犯罪。

除了从政策和法律角度对付 AI 换脸，也有些研究者在探索使用技术方法辨别换脸视频，本质上就是打造出更强大的判别器；而 AI 换脸的实践者又总是可以使用更强大的生成器来应对。

去马赛克#

究其根本，去除视频中的马赛克执行的并不是「去除」操作，而是重建或者说生成，也就是说得到的结果并不一定就和原视频一样。只要有足够的优质训练数据，当前最佳的（SOTA）模型已经能很好地应对这一任务 —— 不管是不是色情。

与在色情视频中加马赛克一样，去除色情视频中的马赛克同样是颇具争议的行为。

2021 年 10 月，日本警方逮捕了一位使用 AI 消除色情视频中马赛克并出售这些视频的男子。据报道，该男子修改了 1 万多个视频，总共卖出了大约 1100 万日元。

生成新图像和视频#

图像和视频生成技术正处于 AI 学术研究的核心，并且已经出现了 Midjourney 和 Stable Diffusion 等一些强大的工具。而将这些工具用于色情目的完全是不可避免的。

一般而言，图像和视频生成面临着两大难题：一是生成模型本身的问题，包括伪影、不合理的图像结构等；二是当使用自然语言引导模型生成时，如何确保模型能正确理解用户表达的含义。

图像生成方面，第一个问题随着越来越强大的模型和越来越高质量的数据而逐步得到解决，第二个问题也在一些 prompt 生成器的帮助下正渐渐成为过去。

Deepfake 生成的马斯克深吻扎克伯格图像，来自 Twitter

目前支持生成色情图像的服务已有不少，下面简单列出其中一些：

Stable Diffusion，其本身并不支持生成色情图像，但可通过扩展模型包解决，如 ChilloutMix、majicMIX。
Unstable Diffusion，即可以生成色情图像的 Stable Diffusion。
SoulGen.ai、PicSo、Neural Love 等一些在线生成器。

但在色情视频生成方面，由于基础模型的能力还有待进一步提升，因此还没有出现足够好用的工具。

色情聊天机器人#

人为什么聊天？一个目的是为了分享知识和见闻，另一个目的则是为了找到陪伴、排遣孤独、获得快乐。色情聊天机器人基本都是为后一目地服务的。

聊天机器人 ChatGPT 让人看到了大型语言模型的强大，也为早已存在的色情聊天机器人带来了新的可能性。

目前市面上已经有一些色情聊天机器人服务了，比如提供「虚拟伴侣」服务的 Replika 就并不避讳色情对话，有报道称成人内容订阅服务 OnlyFans 有性工作者使用 AI 来自动答复订阅者，而 crushchat.app 上已有大量不同人设的色情聊天机器人。

当然，也有不是为色情目的设计的聊天机器人被用于色情目的，其中最难避免的当然是开源的语言模型，比如 Meta 发布的 LLaMA 被用作基础模型开发出了色情聊天机器人 Allie—— 它被设定成了一位 18 岁的金发女郎。

另一个例子则是基于网红 Caryn Marjorie 的声音开发的「虚拟女友（virtual girlfriend）」AI Caryn。据报道，这个聊天机器人在发布一段时间后就只会谈论性话题了 —— 不管 prompt 是什么，它都能扯到性上面去。据介绍，原因是该 AI 模型会使用与其对话时间最长的用户的对话数据进一步训练，因为开发者认为对话时间长意味着模型的表现更好，但实际情况却是与模型对话时间长的用户基本都在和 AI 谈性。

性爱机器人#

说到 AI 在色情方面的应用，不可避免地会涉及到性爱机器人。实际上，类似性爱机器人的概念早在古希腊时期就已经出现。

在古希腊神话中，有一个有关年轻的雕塑家皮格马利翁（Pygmalion）的故事。他厌恶真实的女性，于是自己动手雕塑了一个。这个女性塑像由象牙制成，这在神话中是一种温暖的源自生命的媒介。后来，皮格马利翁爱上了自己的作品，怀着敬畏和渴望抚摸着她完美的身体，甚至想象如果自己用力压在她身上会让她受伤。他向雕像赠送礼物，向她诉说爱意。在爱情之神阿佛洛狄忒神庙中，他恳求女神让他的「女孩的拟像（simulacrum of a girl）」复活。之后阿佛洛狄忒回应了他，为他的完美雕塑赋予了生命。历史学家 Adrienne Mayor 在她的著作《Gods and Robots》中认为这是西方历史上第一次描述女性机器人性伴侣。

时间快进到现在，人类虽然依然还不能造成「完美的」性爱机器人，但也确实在向这个方向努力。现目前已经有一些公司推出了集成了 AI 功能的性爱玩具，比如 Abyss Creations 公司基于其硅胶性玩具 RealDoll 开发的 Realbotix 项目，其具备一定的面部运动能力，还配置了可定制化的 AI。

RealBotix 开发的性爱机器人 Henry、Solana 和 Harmony，图片来自 Engadget

GPT 等大型语言模型的出现可望为性爱机器人的交流能力带来质的提升，但这还需要一定时间。据报道，已经有提供商正尝试将 ChatGPT 技术整合到性玩具中。

其它#

人工智能在色情领域还有一些潜在应用。一些见诸报道的例子包括使用 AI 助力色情游戏制作、用 AI 帮助用户筛选出自己感兴趣的色情作品、利用 AI 创作色情电影剧本。

滥用和监管问题#

在目前的大多数社会中，性爱都不是一个可以随意探讨的话题，公开展露裸体或性爱场景更是让人难以接受。对于 AI 的色情应用，人们的看法也各不相同。一些人认为这是救世良术，可以帮助排解现代人的孤独，甚至拯救可能自我毁灭的生命；另一些人则视之为洪水猛兽，甚至认为这将会把人类文明拉入深渊；还有些人不以为意，直言这不过人类本性的正常展现，不足以为奇。但不管看法，AI + 色情已是大势所趋，不可避免，而同样不可避免的是人们对色情 AI 的滥用。

在前面提到换脸 AI 时，我们已经提到了将成人影视作品中的人脸替换成他人的滥用问题；另一种在网络的灰暗角落滋生蔓延的类似 AI 滥用问题是所谓的「一键脱衣」应用。这些做法很可能给受害者带来极大的心理创伤，而同时受害者却难以维护自己的合法权益。

此外，将生成式 AI 用于生成儿童色情内容也是个需要保持警惕的问题。除了生成仿真实的儿童色情内容，也要关注难以界定、颇具争议的色情动漫的生成。针对这些问题的标准制定和立法工作也应当加快进行。

结语#

人造灵智之物的色情应用自古以来便是人类幻想的一部分，比如在本文开始处《列子・汤问》中所记载的偃师制造的假人的故事中，这个假人在向周穆王表演时挤眉弄眼地去挑逗王身边的妃嫔，似乎暗示这个假人具备与性相关的功能。

随着技术的发展，过去人类的很多幻想都已经或正在变成现实，它们会改变我们的生活方式和观念想法。当然，这些改变不一定是有益的。在应用这些技术时，实践者应当避免滥用这些技术而对他人造成伤害。