草根影響力新視野 黎松子

在AlHub.cn這個網站隨便一搜,就有1800個國內外AI工具,包含AI寫作、AI繪畫、AI視頻、AI對話等各種你能想到的AI應用,而這家網站僅僅成立於三年前。筆者這種小白,還驚訝於用文字生個圖片、視頻,摳個圖、P個照,或者一鍵生成個ppt等等簡單應用時,多模態大模型又來了。

多模態模型結合了電腦視覺和自然語言處理(NLP)的優勢,改變了機器認識世界和感知世界的方式。那我們人類借助多模態模型,是否會改變我們認識世界和感知世界的方式呢?比如,多模型的“性別”,毫無疑問,大家一定注意到科技大佬們展示demo時,都幾乎是漂亮的女性聲音,但她背後的思維模式卻未必是女性思維。我們與大模型對話聊天、獲取知識,如果我們通過大模型認知世界,是不是潛移默化的植入了男性思維?

比如小明默認為是男性,小紅默認為是女性。

比如護士、家務勞動者的默認形象是女性,而成功的企業家默認形象是男性,除非你限制了提示詞,要求提供一個成功女企業家的形象,否則,出來的形象是男性。

各種智慧語音助手是年輕溫柔的女性聲音。

這種人類世界的刻板印象,性別認知偏差,大模型會有麼?當然有,因為大模型也是人做的啊。

就我個人而言,當然是堅定的女權擁護者,作為直女,我不介意把我的智慧語音助手設定為女性,但我介意的是,這名“女性”背後的思維邏輯仍然是男性理解下的“女性思維”。

舉個例子,《老友記》裡面joey摸著油膩的頭髮,說著經典臺詞:how you doing 的時候,他肯定覺得這是他帥爆了的搭訕方式,但是對女性而言,也許是油膩爆了的搭訕方式。再比如《生活大爆炸》裡Howard去撩penny時,不論是蹩腳的魔術、搞怪的口音、吹噓他做的太空馬桶等等一切他以為他的A game ,penny 都無比嫌棄。沒錯,男女思維就是這麼差距。當我問我智慧語音助手(無論男女),男朋友生日快到了,送什麼禮物好的時候,我顯然也不想得到答案是車子、手錶、4090顯卡等這些慣性回答。

廣告 公佈 公告 關注 音頻 背景 背景 男孩 廣播 冷 通訊 瘋狂的 病 有趣 傢伙 健康 生病 孤立 擴音器 小 男人 擴音器 信息 新聞 人 人 肖像 公 驚叫 季節 叫喊 生病 微笑 聲音 揚聲器 發言 工作室 聲音 量 溫暖 冬天 鬍鬚 帽 帽子 圍巾 藍色 蠟筆 複製空間 哇 禮物 手套
圖片取自:(示意圖123rf)

大模型的認知偏差怎麼來的?人工智慧發展的三大基石:資料、演算法和算力。前兩項都是偏差的來源。

首先是資料來源的偏差。

大模型在訓練時,要使用大量開放領域的資料,包括互聯網上的各種文章、新聞、資料、資料等,這些文本中可能存在性別偏見的表達,如固化的性別角色或偏見表述,以及刻板的性別歸屬。供AI學習訓練的“教材”本身暗含偏見,作為訓練結果,AI在生成文本時就會反映這些偏見,而且會像蝴蝶效應一樣,被大模型學習再學習,深化偏見。人類也是經過長期主動的學習,並且還要有意識的去避免性別偏見,才能在生活中不要冒犯到別人,護士不一定是女的,董事長不一定是男的,保姆不一定是年長的女性,開大貨車的也不一定是爺們兒。定勢思維很難改變,大模型估計一樣很難改變。

就這點講,我建議大模型訓練時,植入大量standup comedy的文本,這些脫口秀文本,大多就LGBTQ等問題進行調侃,只不過在植入時,我們告訴大模型,笑聲越大,偏見越大,笑聲越大的地方就是反面教材,記住這點就好。

其次是演算法的偏差。

演算法是誰設計的,當然是大模型的工程師設計的。那科技行業工程師就目前來看,無疑還是男性偏多。矽谷裡大量白人男性,他們無論直彎,恐怕對女性及邊緣群體也瞭解不足,再說,美國有92種性別呢,個體無論如何只能代表某種或某幾種性別,大模型的數量看似很大,在這個維度上講,似乎資料量又不夠大。

2020 年 3 月,清華大學 – 中國工程院知識智慧聯合研究中心、清華大學人工智慧研究院與北京智源人工智慧研究院發佈人工智慧全球女性榜單(Women in AI),通過 AMiner 學術資料在全球範圍內遴選人工智慧學科最有影響力、最具活力的女性學者。研究分析了 2000 位人工智慧全球最具影響力 AI 學者榜單(www.aminer.cn/ai2000),選取出 179 位女性學者,占2000位學者中的 9%。從國家分佈來看,179 位女性學者分佈于全球 21 個國家。其中超過 60% 的學者來自于美國,共 116 位,來自中國的女性學者共有12位。從占比來看,在 AI 2000 的榜單中,美國女性科學家占美國科學家總數的 10%。此外,英國、加拿大和法國,人工智慧女科學家占比也超過 15% 。與之相比,我國女性科學家占在2000名人工智慧科學家的中國科學家中總數的 7%,提醒我國在培養女性科學家方面還可以提高。

大模型的研發畢竟依賴高精尖人才,精英教育中的性別問題是顯而易見的問題。當然我們有很多優秀的女性AI工作者,但還遠遠不夠。比如喬伊·布奧蘭姆維尼(Joy Buolamwini),她是演算法正義聯盟創始人,被稱為AI革命的業界良心,因為自身是黑人女性,她在麻省理工大學讀研究生時就從事演算法偏見方面的志願工作,以此讓全世界開始關注人臉識別系統中的人種和性別偏見問題。

如果大模型是太上老君的煉丹爐,那至少要放多樣性的原材料才行,光放孫悟空練不出丹。大模型也許無法兼顧到92種性別,但至少應該大量提高女性AI工作的權重,才能消除演算法偏見。

演算法偏見比資料來源偏差容易解決,配製工作團隊,提高女性從業權重即可減輕。可是資料來源上海量的文本中,潛移默化的性別偏見,會被AI學去,當AI處理海量資料時,它能夠自主發掘資料間的潛在聯繫,並據此確定各變數的權重,過程如同一層迷霧,即使是演算法設計者也難以精確指出AI是在哪個環節、基於哪些因素習得了社會偏見。

最後當AI大模型成為一種商品時,自然就帶了資本偏見。誰購買力強,誰就有話語權,那大多數家庭中,男性仍然是主導消費的主要角色。Open AI的Chat GPT-4o,使用了年輕、性感且順從的女性聲音,且這個女性從不抱怨、從不否定主人,從來溫柔而積極地給主人提供情緒價值,也從一定程度上物化了女性,認為女性在兩性關係中應該是這樣一種形象。Chat GPT-4o發佈會上,我明白主持人想展現ai即時交互的優越性,多模態互動,但是表現出來的助手仍然給人一種“賣弄風情”的感覺,這就是一種對女性的刻板偏見。我們有多面,不止賣弄風情這一面。我們天天叫siri幹著幹那,是不是也會物化女性,認為女性就是應當是有求必應、溫柔順從的?

目前很多方法在糾正AI性別歧視、偏差時,往往會導致AI“變蠢”,因為真實的語境太複雜,你可以有兩個爸爸,也可以有兩個媽媽,但如果AI要刻意去糾正,就有可能把你爸爸搞成是女的,把你媽媽搞成是男的,AI在這個尺度上還需要深度學習。給大家一個小練習,用任何一個AI作圖工具,輸入提示詞 ,家長輔導作業,看出來的圖是媽媽在輔導還是爸爸在輔導,也許可以對這個議題管中窺豹一下。