賓州大學和 OpenAI 的研究人員在最近幾個月的研究報告中指出,以美國勞動市場為例,約 80% 的工作者未來至少有一成的工作量能透過 AI 更快完成,甚至完全自動化。

正當 AI 被認為能取代乏味的基礎人工,好讓工作者追求更有成就感及人性化的任務,這些販賣最新AI模型、擁有數百億美元估值的新創(例如OpenAI),其技術背後卻是由大量單調、重複的低階勞動所堆砌而成。

最近由《紐約雜誌》 和 《The Verge》聯合刊出的調查報導,就揭露了生式AI 模型,背後隱藏的辛酸產業鏈。

幾秒鐘的自駕車學習影片,標註 8 小時、報酬僅 310 元台幣

以一名剛從肯亞首都奈洛比畢業的大學生 Joe 為例,他應徵了一份註釋員(annotator )的工作,也就是幫 AI 標註、分類用來學習的資料。一開始他幫自駕車鏡頭錄下的影像資料添加標註,讓 AI 學會判別哪些是車輛、行人以及路樹。一段幾秒鐘的學習影片,需耗費Joe 約 8 個小時來進行整理、標記,而這整個工作所得報酬不過 10 塊美元(換算約 310 元台幣)。

其後 Joe 進入另一間名為 Remotasks 的大公司,薪資是原來的 4 倍,但他必須長時間被關在房間裡獨處,做一些不明所以的事情,例如幫照片中不同種類的服飾分類;從打掃機器人的鏡頭視角推測其所在的房間位置等,且禁止與同事討論手邊正在進行中的項目。

實際上 Remotasks 是一間名為 Scale AI 的子公司,其客戶包含 OpenAI 與美國軍方。而在矽谷有更多像 Scale AI  的公司正在向 OpenAI、微軟、Google 等科技巨頭,提供已整理、分類好的數據,使其能更快速訓練 AI 模型。而這些提供訓練資料的公司,多半仰賴第三世界國家的廉價勞力。

標註血腥暴力素材,精神受創,時薪不到 70 元台幣

據《Noema Magazine》報導指出,不同於矽谷那些年薪六位數美元以上的 AI 研究員,這群協助 AI 建立基礎認知的資料註釋員,通常來自經濟較差的國家,例如委內瑞拉是提供自駕車視覺辨識系統訓練資料的大本營;在保加利亞,有不少敘利亞難民提供臉部辨識所需的分析資料,而他們平均時薪大多不超過 2 美元(70 元台幣)。

撇除低薪問題,部分資料標記工作還可能毒害勞動者的身心。

今年初《Times》一篇報導,就揭露 OpenAI 自 2021 年透過外包合作公司 Sama,僱用大量肯亞勞工來提供訓練 ChatGPT 辨別不良內容的資料。註釋員每天需瀏覽大量有關性虐待、酷刑、血腥暴力的素材,儘管公司提供有關心理健康方面的面談,仍有不少員工受到精神創傷。

目前業界有些人認為這個現象只是過渡時期。研究 AI 實務的非營利組織 Partnership on AI負責人 Sonam Jindal 指出,不少公司認為這只是建模初期所需要的工夫,「一但模型完成就不需要這類大量重複性的工作,所以為什麼要去在乎它?」

被剝削的註釋員只是過渡時期產物?專家:永遠有新情況需註記

但 AI 所需的註釋可能沒這麼簡單。

德國數據資料研究員 Milagros Miceli 指出,整個註釋行業普遍存在著標準不一的問題。「由於人類透過幾個例子就能了解『襯衫』是什麼,機器卻需要數以萬計的例子。」而成千上萬的例子,通常需要分給至少數百個工人來完成標記。

有註釋員看到反映在鏡子上的襯衫會標記,有人看到摺好的襯衫不會標記。還有更多情況像:晾在衣架上的襯衫、著火的襯衫、雨衣材質的襯衫,不同人有不同標記原則,這使得模型沒辦法徹底學會辨識出襯衫。

2018 年,Uber 在測試自駕車時撞死了一名女性,因為它被設定要避開自行車騎士與行人,但它不知道如何看待牽自行車過馬路的人。當然,負責分發標記任務的人可制定一本厚重的工作手冊,告訴註釋員何種情況該標記,但永遠會有無法窮盡的特殊情況,需要人類再次訂定標準。

擺脫低階勞動、期待更多專業人士投入,升級註釋產業

醫療數據註釋公司 Centaur Labs 執行長 Erik Duhaime 指出,註釋工作讓 AI 像是又一次工業革命:龐大的工作流程被拆分成細碎簡單的任務,並沿著產線大量且重複發生,其中一些步驟由機器完成,一些步驟由人類完成,就像是卓别林的《摩登時代》。

也許在可見的未來內,AI 模型仍脫離不了註釋員的勞動,但它仍有能夠越來越好的潛力。

目前 Remotasks 在美國雇用的註釋員,時薪通常在 10 到 25 美元之間,特定主題或具備專家身分的收入可能更高。一位名為 Anna 的註釋員,分享了他訓練 Google DeepMind 所開發的聊天機器人 Sparrow 的過程;Anna 一整天工作就是和機器聊天,而他很享受這個過程,有時候他們會討論科幻小說、分享笑話及電視節目,「有時機器人的回應會讓我發笑,反之亦然。」而且他能拿到約 14 美元的時薪,優於當地基本時薪。

於 2020 年創立了 註釋新創 Surge 的 Edwin Chen 認為,這個行業需要擺脫過去的低階勞動模式,

「如果我們希望 AI 的思維模式更豐富,我們必須以更專業的註釋方式,讓 AI 捕捉到人類獨有的創造力、思想價值。」

近期,市場對於其他更進階、複雜的註釋需求確實上升了。

5 月份,Scale AI 開始在網站上羅列更多高階註釋工作,招募像是金融、營養學、法律、文學等幾乎各產業的專業人士,以培訓 AI 辨識專業知識。你也許能以 45 美元的時薪,教 AI 辨識法律條文,或是 25 美元的時薪教他們寫詩。

如今像是 Anthropic、Meta 等其他在 AI 領域有領先優勢的公司,甚至開始使用 GPT-4來生成訓練數據,試圖擺脫人工註釋的功夫。OpenAI 執行長 Sam Altman認為,隨著 AI 進步,人工註釋的數據需求將越來越少。

本圖/文由「Techorange科技報橘」授權刊登,非經同意不得任意轉載。
原文出處:訓練 ChatGPT 時薪不到 70 元 剝削人類的始終是人類,AI 讓社會變進步但沒變善良