AI不再學壞!台大發表「概念抹除」技術

吳碧娥╱北美智權報 編輯部

0
492
圖1. 在國科會補助支持下,台灣大學電機系王鈺強教授團隊推出「概念抹除」技術Receler;圖片來源:國科會

為避免生成式AI帶來侵權、濫用與倫理等挑戰,在國科會補助支持下,台灣大學電機系王鈺強教授團隊推出面向生成式模型的「概念抹除」(concept erasing)技術Receler(Reliable Concept Erasing via Lightweight Erasers)。Receler可在不重新訓練整個生成式模型的前提下,精準切斷模型對特定高風險概念的聯想與表現能力(如血腥暴力、深偽換臉、特定藝術家或品牌風格)。

台大該研究成果在2024年底發表於歐洲計算機視覺國際研討會(European Conference on Computer Vision,簡稱ECCV),此會議是國際計算機視覺領域三大頂尖會議之一,近一年來,此成果在Google Scholar上引用次數快速增加,且在GitHub開源平台上獲廣泛下載與應用,已引起國際AI學術界的高度關注與認可。

生成式AI引發侵權爭議

雖然生成式AI作為一種工具,為使用者帶來創作更快、更便利、甚至媲美專業的創作,但同時也有生成式AI生出血腥暴力內容、深偽(Deepfake)詐騙與未經授權的風格仿作等等爭議。面對這些爭議,在生成式AI應用面對同時要保護未成年、顧品牌和版權疑慮,但又不想將模型的創作能力捨棄、讓使用者體驗變差的困難,只靠關鍵字和人工審核,往往出現漏網或誤攔的情況。在此情況下,生成式模型在使用Receler技術避免「暴力」這個概念後,當輸入與暴力相關的直白或隱喻指令時,模型將不會輸出與暴力相關的圖片,例如:抹除「某藝術家(如吉卜力)風格」之後,當輸入相關的描述時,系統會改以中性、不侵權的風格呈現。

Receler技術亮點

王鈺強指出,研究團隊提出概念橡皮擦(Concept Eraser),結合對抗性機器學習 (Adversarial Learning) 技術以及具交叉注意力機制(Cross-Attention),讓Receler技術可精準抹除高風險概念,同時保留原始AI模型的創作能力,不需重新蒐集標註資料和重新訓練模型,並維持落地應用所需之低延遲的條件。與其他研究成果相比,Receler能夠更穩地的將高風險概念移除,同時不犧牲多樣性與細節品質,有效解決AI侵權或生成特定有疑慮之內容。

國科會表示,Receler協助平台、教育單位、品牌與政府部門,在維持AI應用性的同時,建立可被信任、可被審核、可持續演進的生成式AI安全創作環境。AI安全為核心課題,國家科研資源將持續投入,推動學研發展與模型強健,同時確保可解釋性、隱私保護,並降低潛在危害,落實以人為本的AI應用。

參考資料:https://doi.org/10.1007/978-3-031-73661-2_20

作者: 吳碧娥
現任: 北美智權報主編
學歷: 政治大學新聞研究所
經歷: 北美智權報資深編輯
驊訊電子總經理室特助
經濟日報財經組記者
東森購物總經理室經營企劃


發表留言

請輸入您的評論!
請在此輸入您的姓名