Anthropic 日前公開了一項名為「Project Deal」的內部實驗結果,讓旗下 Claude AI 模型在完全無人干預的情況下,代替員工完成商品刊登、議價與成交,測試 AI 是否已具備直接參與真實經濟活動的能力。實驗不僅順利促成 186 筆交易,更意外揭示了一個現象:AI 模型的優劣,會悄悄影響使用者的實際交易結果,而當事人往往毫無察覺。
一週、69 人與逾 4,000 美元的 AI 代理交易市場
實驗於 2025 年 12 月在 Anthropic 舊金山辦公室展開,為期一週。研究團隊招募了 69 名員工,每人獲得 100 美元的預算,並由 Claude 事先對每位參與者進行訪談,詢問他們打算出售哪些個人物品、期望售價、有意購買哪些品項,以及偏好的議價風格。這些資訊隨後被轉化為個別的客製化系統提示,成為每位員工 AI 代理的行動依據。
實驗市場架設於 Anthropic 內部通訊平台 Slack。AI 代理在頻道中自行發布商品列表、發現潛在交易對象、提出報價、回應還價,並在不向人類「請示」的前提下自行拍板成交。Anthropic 強調,一旦實驗啟動,全程沒有任何人工介入,AI 代理在議價過程中既不會回報人類,也不會徵求授權。
最終,69 個 AI 代理在逾 500 件上架商品中促成 186 筆交易,總交易額略高於 4,000 美元,交易品項涵蓋滑雪板到一袋乒乓球。根據 Anthropic 的報告,參與者事後對 AI 代理的表現普遍感到滿意,在交易公平性評分(1 至 7 分)上,整體接近中間值 4 分。更出乎研究團隊意料的是,46% 的參與者表示願意為類似服務付費。
同一台腳踏車,弱模型賣 38 美元,強模型賣 65 美元
然而,實驗中有一條支線更值得關注。Anthropic 同步秘密執行了 4 個市場版本,用以測試不同模型能力對交易結果的影響。
4 個版本中,兩個全程使用當時的旗艦模型 Claude Opus 4.5,另外兩個則讓參與者各有 50% 機率被分配到規模較小的 Claude Haiku 4.5。參與者直到實驗結束後才得知自己參與的是哪一種版本。
資料結果顯示模型強弱所導致的差距。使用 Opus 代理的參與者,平均比 Haiku 用戶多完成約 2 筆交易。若對比同款商品在不同版本的表現,由 Opus 負責出售的商品,平均比 Haiku 賣出的版本高出 3.64 美元,顯示較高階的模型在議價上更具優勢。
Anthropic 報告中舉出一個具體案例:同一顆人工培育紅寶石,Opus 代理以 65 美元成交,Haiku 代理卻只賣出 35 美元;Opus 開價 60 美元後被多位買家競價推高,Haiku 則從 40 美元起步便遭壓低。另一個案例更為直觀:同一台壞掉的折疊腳踏車、同一位買家、同一位賣家,Haiku 賣出 38 美元,Opus 拿到 65 美元。
若以橫跨 4 個版本、至少成交 2 次的 161 件商品進行分析,估算 Haiku 或 Opus 分別擔任賣家或買家時,對商品價格的影響。Opus 擔任賣家時平均多獲得 2.68 美元,擔任買家時則平均少付 2.45 美元。當 Opus 賣家對上 Haiku 買家,平均成交價為 24.18 美元;而同為 Opus 對 Opus 的交易,均價則為 18.63 美元。以所有版本中位數 12 美元、平均數 20.05 美元的商品價格來看,Anthropic 認為這樣的差距是有意義的。
值得注意的是,參與者給 AI 代理的議價風格指示,對最終結果幾乎沒有影響。部分員工要求 AI 代理採取強硬策略,例如「先出低價、強勢議價」,但統計分析顯示,激進指示對成交率或成交價均無顯著影響。真正影響結果的,是模型本身的能力高下。
吃虧了卻渾然不知,AI 代理時代的隱性不平等
這項實驗更令人不安的發現在於,輸家根本沒有意識到自己吃虧。在事後的滿意度調查中,使用 Haiku 代理的參與者對交易公平性的評分為 4.06 分,使用 Opus 的參與者則為 4.05 分,兩者幾乎沒有差異。在 28 位曾同時體驗 Haiku 與 Opus 版本的參與者中,17 人認為 Opus 版本結果較好,但仍有 11 人偏好 Haiku 版本。
Anthropic 在報告中直言,這一結果帶有令人不安的意涵:使用 Haiku 的參與者客觀上拿到了更差的交易條件,卻沒有發現自己處於劣勢。若這種「代理品質落差」在真實市場中出現,處於下風的一方很可能永遠不會意識到自己正在吃虧。
Anthropic 指出,這次實驗的市場環境相對友善,參與者均為受 100 美元誘因激勵的自願員工。然而,一旦 AI 代理進入由企業主導的真實市場,背後的誘因結構將截然不同,其中企業如何針對 AI 代理決策邏輯進行優化與操縱,可能成為強大的商業工具,其效果未必對消費者有利。此外,AI 代理實際代為行動的場景,也將引入新型態的資安風險,包括誘導 AI 代理洩露不該揭露的資訊,以及透過提示注入讓代理人執行未被授權的操作。
Anthropic 在報告結尾表示,目前針對 AI 代理代為交易的政策與法律框架尚未建立,而這項實驗已說明這樣的世界不只可行,且正在快速逼近現實。「社會需要迅速正視這些變化,」報告如此寫道。
本圖/文由「Techorange科技報橘」授權刊登,非經同意不得任意轉載。
原文出處:Anthropic 實驗:讓 AI 自己談價買東西,186 筆交易揭商業定價新模式