《列子・湯問》中有一偃師的故事,說是有一巧匠製造了一個假人,此假人能歌善舞,從外觀看基本與真人無異。周穆王觀看過這個假人的表演之後感慨說:「人之巧乃可與造化者同功乎?」即人類技藝的精巧也許能與造物主比肩?
我不知道造物主的技藝究竟如何,但卻看到人類已經創造出了頗為強大且相當實用的人工智能(AI)。這些人工智能大都依賴於統計學,善於發掘出巨量數據中的模式並加以利用;然後它們具備了堪與人類比肩乃至更勝一籌的影像、聲音和文本的分析與生成能力,也由此被應用到了各種任務上,比如人臉識別、語音助理和聊天機器人數字客服等等,而不可避免地,AI 也在色情領域找到了應用場景。
先不談道德倫理方面的問題,AI 在色情領域的應用已有不少,包括換臉、人臉或隱私部位打碼、色情聊天機器人、色情小說或色情影視生成以及結合機器人技術的智能性愛機器人。可以毫不誇張地說,幾乎每一種 AI 技術都能在色情領域找到應用場景。
本文純為分享目的,不為文中提到的任何公司、產品、服務和技術背書。
巨大的市場潛力#
有需求的地方就會有市場。食色,性也。「性」是人類普遍具有的需求,因此自然出現一個規模不小的市場,而且其規模還在以肉眼可見的速度的增長。
據市場調研公司 Persistence 估計,2021 年數字成人內容市場價值約為 381 億美元,2022 年的約為 448 億美元;他們預計到 2032 年,這一市場的規模將達到 2010 億美元。而根據 Gitnux 發布的《2023 年色情內容製品產業統計數據和趨勢》估計,全球色情內容製品 *(Pornography,包含色情圖像、視頻、文本、音頻、遊戲等)* 產業的市場規模大約為 970 億美元。此外,該報告中還提到了一些有趣事實:全世界大約 30% 的互聯網下載與色情相關、大約 25% 的搜索引擎查詢與色情相關、成人網站數量超過 420 萬,占網站總數的 12%、互聯網色情占美國電商銷量的 20% 左右。
性玩具市場也不容小覷,據 Business Wire 估計,到 2030 年,全球性玩具市場的規模將達到 623.2 億美元。
這裡給一個數據對照之下,根據《中國互聯網市場前景及投資機會研究報告》,按收入計,2022 年全中國的移動社交網絡市場規模為 2050 億元,即大約 284 億美元。
AI 的色情應用#
既然有利可圖,而 AI 又是一種炙手可熱、具有巨大潛力的新技術,那麼就一定會有人嘗試將 AI 應用於色情。
色情內容檢測#
檢測色情內容應該算得上是 AI 在相關領域最簡單的應用。根據具體內容類型,所涉及的技術包括文本或音頻中的關鍵詞檢測、色情圖像檢測、視頻中色情內容的檢測等。
這類技術在多年前就已經開始得到部署和應用,尤其是對於社交媒體上的內容審查。
舉個例子,微軟的 Azure 認知服務就提供了內容審查器,可以讓用戶使用「機器輔助圖像審查來審查圖像中是否存在成人和猥褻內容」。
再以 YouTube 為例,據 其社區準則執行情況報告,2023 年 1 月到 3 月之間,YouTube 一共移除了近 649 萬個視頻,其中 10.2% 的移除原因是「裸露或色情」。而在整體被移除的視頻中,超過 72% 的被觀看次數不超過 10 次。這樣的審查成果很大一部分功勞要歸功於「自動標記(Automated flagging)」—— 超過 608 萬視頻被移除都是機器自動完成的。
據 Dataconomy 報道,YouTube 使用了卷積神經網絡來分析視頻的每一幀,檢測其中的顯著特徵,進而篩查出違反 YouTube 社區規定的視頻。
隨著視頻直播的盛行,防範直播內容出現色情內容也成了平台方的一個重要任務。比如 2016 年就有报道称「各大科技公司已經掌握了相關技術,能夠屏蔽直播或錄製視頻中的色情信息。」
對於想要在網上衝浪過程中免受色情內容影響的用戶(比如為了淨化孩童的上網環境),一種選擇是使用色情攔截器(porn blocker)。已經有一些提供商在提供相關服務了,比如 xGuard 和 Canopy Internet Filter。
打碼和消音#
打碼是指使用馬賽克技術遮蔽圖像和視頻中部分內容的做法,而消音則是對音頻採取類似的做法。
儘管在色情領域,對內容打碼或消音往往是頗具爭議的做法,但受限於具體的法律或隱私需求,相關技術對特定組織或個人依然具有重要價值。
用 AI 給色情內容打碼並不是什么新鮮事,其工作過程描述起來也很簡單:首先識別出需要打碼的部分,然後用馬賽克遮蔽住這部分。因此,這個過程需要用到的 AI 技術是圖像識別或人臉識別。
消音方面也是類似,即首先使用語音識別檢測出需要消音的內容,然後對其靜音或使用「哔」聲或其它聲音替代。
圖像和語音識別技術已經經歷了多年的長足發展,現目前只要有足夠的標註良好的數據,人們就能訓練出準確度非常高的圖像和語音識別模型。
以圖像識別為例,根據 Papers With Code,現在表現最佳的模型在 ImageNet 數據集上的 Top-1 準確度(即頭號結果就是所需結果的概率)已經能達到 91.1%。
用戶只需對這些模型稍加微調,就能將其用於色情內容。
字幕生成#
喜歡欣賞異域風情的觀眾可能會面臨一個問題:聽不懂視頻中表演者在說什麼。即便許多用戶在觀看色情視頻時並不在乎能不能聽懂對話,但也有許多用戶希望能夠聽懂,尤其是對於具有不少劇情的作品。於是乎,基於 AI 的字幕自動生成技術就在色情領域有了用武之地。
從技術角度看,這類技術並不複雜,其核心是幾年前就已經相當成熟的語音識別和機器翻譯技術。現在,用戶只需要在搜索引擎中輸入關鍵詞「AI 生成字幕」,就能找到大量相關工具和服務,它們不少都支持多種語言,而且使用成本也普遍不高。
當然,將這些技術用來給色情視頻生成字幕是完全順理成章的事情,比如 EasySub 推出的 AV 字幕生成器,其宣稱自己的字幕生成準確度超過 95%。
色情內容生成#
生成技術可以說是目前 AI 相關從業者最為關注的技術方向,使用生成技術來生成色情內容也就自然是順理成章的事情了。
在學術界,研究者大都更關注一般性問題,專門針對色情內容開發的情況非常少。因此相關實踐者的最佳方法是取用針對一般性任務預訓練過的模型,然後再使用色情內容數據集對模型進行微調。
利用生成技術來製作色情內容有一些優勢:
- 個性化定制
- 降低內容生產成本
- 為創作者提供靈感
下面我們將分主題介紹一些 AI 在色情領域的應用。
文本#
以 ChatGPT 為代表的大型語言模型(LLM)的興起讓我們看到了色情文學創作的新可能性,而且毫無疑問這類技術會被用來寫色情故事,比如 DreamPress 就發布了一個色情故事生成器服務,能夠根據用戶提供的標題、描述、類型和標籤自動生成色情文本。
據介紹,該服務使用了 GPT 技術。GPT(Generative Pre-trained Transformer)是一種基於 Transformer 模型和大規模預訓練的神經網絡。Transformer 是一種基於自注意力機制的神經網絡架構,能夠處理長文本序列並捕捉全局依賴關係。GPT 的目標是生成與給定輸入上下文相關的連續文本。
Transformer 架構,圖片來自論文《Attention Is All You Need》
簡單來說,GPT 使用了一種稱為「預訓練 - 微調」的兩階段方法。在預訓練階段,GPT 通過使用自回歸的方式來訓練,即根據之前的詞預測下一個詞。模型通過大量這樣的預測任務來學習上下文表徵,從而理解詞語之間的關聯和句子的語法結構。在預訓練完成後,GPT 進入微調階段。在這個階段,其使用有標籤的特定任務數據集來微調模型,以使其適應該特定任務的要求。
Hugging Face 上也托管著一個基於 GPT-2 開發的色情故事生成器 nsfw-story-generator2,其已經被下載了上千次。
生成好色情故事文本後,用戶還能使用圖像生成器為生成的色情故事增添插圖,但這是後文的話題。
聲音#
現在文本轉語音(TTS)技術已經得到了相當成熟的應用,你能看到機器配音的視頻、與語音助手對話、聽各種音色的自動有聲書朗誦…… 但我們也能明顯感覺到目前市面上的 TTS 技術輸出的語音依然會有不自然的地方 —— 不管是語速還是語音中暗含的情緒,人們總是能輕鬆分辨合成語音和自然語音。
為了獲得更自然的機器語音,強大的 AI 是必不可少的。
目前市面上已有不少相當出色的 TTS 服務,雖然它們大都可用於創建色情有聲書或做色情視頻配音,但整體效果依然不尽如人意。
圖像和視頻#
在大英博物館的展品中有這樣一塊陶片,它來自距今大約 3500 年的古埃及,其上描繪了一男一女結合的場景。
圖片來自大英博物館網站
筆者猜想,大概人類自從學會創作圖像以來,就幾乎馬上開始描繪色情場景,畢竟就人類的感官方式而言,圖像是最直觀的呈現方式。
大概也是因為這個原因,圖像和視頻生成技術一出現,便有人用來搞黃色。
目前來看,圖像和視頻生成技術的應用目的大致有三類:換臉、去馬賽克和生成新內容。
換臉#
以 Deepfake 為代表的換臉技術一開始就在色情領域找到了用武之地 —— 當然,未經許可進行換臉在大多數國家都是非法行為;而實際上 2019 年的一項研究發現 96% 的換臉色情視頻都沒有得到當事人許可。
從技術角度講,目前大多數 Deepfake 都是基於生成對抗網絡(GAN)。簡單來說,GAN 包含兩個機器學習模型 —— 生成器和對抗器。其中一個模型的目標是生成視頻並使另一個模型無法識別其是否為合成視頻,而另一個模型的目標自然是辨別輸入樣本是否為合成視頻。這兩個模型在對抗中不斷強化,其生成的視頻與真實視頻的差距也會越來越小。
GAN 工作過程示意圖,來自 machinelearningmastery.com
從具體應用看,目前相關實踐者最常見的做法是將色情視頻中人臉替換成其他人臉(比如名人、虛擬人物或甚至自己的熟人)。儘管這種做法大都非法,但還是有人把這當成了生意。筆者使用「Deepfake porn」關鍵詞在谷歌上進行搜索,前 10 條搜索結果都是提供名人換臉色情視頻的網站。
英國導演 Rosie Morris 2023 年的紀錄片《My Blonde GF》呈現了英國詩人和小說家 Helen Mort 遭遇色情視頻換臉的經歷。Mort 描述說:「有一個女人,她坐在床邊。她有我的臉,但嘴不是我的,她正在 [進行一種性行為]…… 那個女人的皮膚比我的要曬黑很多,而這個女人確實帶有我的紋身。」
由於現目前已經有一些 AI 換臉技術具備了足以亂真的能力,因此已經引起了社會的廣泛關注。
演員工會 - 美國電視和廣播藝人聯合會主席 Fran Drescher 也批評說:「性虐待,無論是身體性虐待還是數字性虐待,都不應被視為『個人表達』而被原諒或允許,也不應被容忍。Deepfake 是一種侵犯、物化和剝削行為,必須將其定為非法並受到法律懲罰。」
現在,已經有些地方正在針對相關問題擬定法律,比如美國紐約州眾議院議員 Joseph Morelle 提出的《Preventing Deepfakes of Intimate Images Act》(防止深度伪造親密影像法案),該法案希望將「未經許可分享經過數字方式修改過的親密影像」的行為認定為犯罪。
除了從政策和法律角度對付 AI 換臉,也有些研究者在探索使用技術方法辨別換臉視頻,本質上就是打造出更強大的判別器;而 AI 換臉的實踐者又總是可以使用更強大的生成器來應對。
去馬賽克#
究其根本,去除視頻中的馬賽克執行的並不是「去除」操作,而是重建或者說生成,也就是說得到的結果並不一定就和原視頻一樣。只要有足夠的優質訓練數據,當前最佳的(SOTA) 模型已經能很好地應對這一任務 —— 不管是不是色情。
與在色情視頻中加馬賽克一樣,去除色情視頻中的馬賽克同樣是頗具爭議的行為。
2021 年 10 月,日本警方逮捕了一位使用 AI 消除色情視頻中馬賽克並出售這些視頻的男子。據報導,該男子修改了 1 萬多個視頻,總共賣出了大約 1100 萬日元。
生成新圖像和視頻#
圖像和視頻生成技術正處於 AI 學術研究的核心,並且已經出現了 Midjourney 和 Stable Diffusion 等一些強大的工具。而將這些工具用於色情目的完全是不可避免的。
一般而言,圖像和視頻生成面臨著兩大難題:一是生成模型本身的問題,包括伪影、不合理的圖像結構等;二是當使用自然語言引導模型生成時,如何確保模型能正確理解用戶表達的含義。
圖像生成方面,第一個問題隨著越來越強大的模型和越來越高質量的數據而逐步得到解決,第二個問題也在一些 prompt 生成器的幫助下正漸漸成為過去。
Deepfake 生成的馬斯克深吻扎克伯格圖像,來自 Twitter
目前支持生成色情圖像的服務已有不少,下面簡單列出其中一些:
- Stable Diffusion,其本身並不支持生成色情圖像,但可通過擴展模型包解決,如 ChilloutMix、majicMIX。
- Unstable Diffusion,即可以生成色情圖像的 Stable Diffusion。
- SoulGen.ai、PicSo、Neural Love 等一些在線生成器。
但在色情視頻生成方面,由於基礎模型的能力還待進一步提升,因此還沒有出現足夠好用的工具。
色情聊天機器人#
人為什麼聊天?一個目的是為了分享知識和見聞,另一個目的則是為了找到陪伴、排遣孤獨、獲得快樂。色情聊天機器人基本都是為后一目地服務的。
聊天機器人 ChatGPT 讓人看到了大型語言模型的強大,也為早已存在的色情聊天機器人帶來了新的可能性。
目前市面上已經有一些色情聊天機器人服務了,比如提供「虛擬伴侶」服務的 Replika 就並不避諱色情對話,有報導稱成人內容訂閱服務 OnlyFans 有性工作者使用 AI 來自動答復訂閱者,而 crushchat.app 上已有大量不同人設的色情聊天機器人。
當然,也有不是為色情目的設計的聊天機器人被用於色情目的,其中最難避免的當然是開源的語言模型,比如 Meta 發布的 LLaMA 被用作基礎模型開發出了色情聊天機器人 Allie—— 它被設定成了一位 18 歲的金髮女郎。
另一個例子則是基於網紅 Caryn Marjorie 的聲音開發的「虛擬女友(virtual girlfriend)」AI Caryn。據報導,這個聊天機器人在發布一段時間後就只會談論性話題了 —— 不管 prompt 是什麼,它都能扯到性上面去。據介紹,原因是該 AI 模型會使用與其對話時間最長的用戶的對話數據進一步訓練,因為開發者認為對話時間長意味著模型的表現更好,但實際情況卻是與模型對話時間長的用戶基本都在和 AI 談性。
性愛機器人#
說到 AI 在色情方面的應用,不可避免地會涉及到性愛機器人。實際上,類似性愛機器人的概念早在古希臘時期就已經出現。
在古希臘神話中,有一個有關年輕的雕塑家皮格馬利翁(Pygmalion)的故事。他厭惡真實的女性,於是自己動手雕塑了一個。這個女性塑像由象牙製成,這在神話中是一種溫暖的源自生命的媒介。後來,皮格馬利翁愛上了自己的作品,懷著敬畏和渴望撫摸著她完美的身體,甚至想象如果自己用力壓在她身上會讓她受傷。他向雕像贈送禮物,向她訴說愛意。在愛情之神阿佛洛狄忒神廟中,他懇求女神讓他的「女孩的擬像(simulacrum of a girl)」復活。之後阿佛洛狄忒回應了他,為他的完美雕塑賦予了生命。歷史學家 Adrienne Mayor 在她的著作《Gods and Robots》中認為這是西方歷史上第一次描述女性機器人性伴侶。
時間快進到現在,人類雖然依然還不能造成「完美的」性愛機器人,但也確實在向這個方向努力。現目前已經有一些公司推出了集成了 AI 功能的性愛玩具,比如 Abyss Creations 公司基於其矽膠性玩具 RealDoll 開發的 Realbotix 項目,其具備一定的面部運動能力,還配置了可定制化的 AI。
RealBotix 開發的性愛機器人 Henry、Solana 和 Harmony,圖片來自 Engadget
GPT 等大型語言模型的出現可望為性愛機器人的交流能力帶來質的提升,但這還需要一定時間。據報導,已經有提供商正嘗試將 ChatGPT 技術整合到性玩具中。
其它#
人工智能在色情領域還有一些潛在應用。一些見諸報導的例子包括使用 AI 助力色情遊戲製作、用 AI 幫助用戶篩選出自己感興趣的色情作品、利用 AI 創作色情電影劇本。
濫用和監管問題#
在目前的大多數社會中,性愛都不是一個可以隨意探討的話題,公開展露裸體或性愛場景更是讓人難以接受。對於 AI 的色情應用,人們的看法也各不相同。一些人認為這是救世良術,可以幫助排解現代人的孤獨,甚至拯救可能自我毀滅的生命;另一些人則視之為洪水猛獸,甚至認為這將會把人類文明拉入深淵;還有些人不以為意,直言這不過人類本性的正常展現,不足以為奇。但不管看法,AI + 色情已是大勢所趨,不可避免,而同樣不可避免的是人們對色情 AI 的濫用。
在前面提到換臉 AI 時,我們已經提到了將成人影視作品中的人臉替換成他人的濫用問題;另一種在網絡的灰暗角落滋生蔓延的類似 AI 濫用問題是所謂的「一鍵脫衣」應用。這些做法很可能給受害者帶來極大的心理創傷,而同時受害者卻難以維護自己的合法權益。
此外,將生成式 AI 用於生成兒童色情內容也是個需要保持警惕的問題。除了生成仿真實的兒童色情內容,也要關注難以界定、頗具爭議的色情動漫的生成。針對這些問題的標準制定和立法工作也應當加快進行。
結語#
人造靈智之物的色情應用自古以來便是人類幻想的一部分,比如在本文開始處《列子・湯問》中所記載的偃師製造的假人的故事中,這個假人在向周穆王表演時擠眉弄眼地去挑逗王身邊的妃嫔,似乎暗示這個假人具備與性相關的功能。
隨著技術的發展,過去人類的很多幻想都已經或正在變成現實,它們會改變我們的生活方式和觀念想法。當然,這些改變不一定是有益的。在應用這些技術時,實踐者應當避免濫用這些技術而對他人造成傷害。