來源:量子位
作者:蕭簫
大模型們胡說八道太嚴重,英偉達看不下去了。
他們正式推出了一個新工具,幫助大模型說該說的話,并回避不應該觸碰的話題。
這個新工具名叫“護欄技術”,相當于給大模型加上一堵安全圍墻,既能控制它的輸出、又能過濾輸入它的內容。
一方面,用戶誘導大模型生成攻擊性代碼、輸出不道德內容的時候,它就會被護欄技術“束縛”,不再輸出不安全的內容。
另一方面,護欄技術還能保護大模型不受用戶的攻擊,幫它擋住來自外界的“惡意輸入”。
Haru Invest首席執行官Hugo Lee發布致歉信:6月21日消息,Haru Invest首席執行官Hugo Lee向客戶發布致歉信,稱目前已經了解到許多用戶對公司采取了法律行動,其計劃與當局合作明確事實,但首要任務是關注其對B&S Holdings欺詐、挪用公款和其他指控提起法律訴訟,確定情況并為客戶追回損失。[2023/6/21 21:51:17]
現在,這個大模型護欄工具已經開源,一起來看看它的效果和生成方法。
防止大模型胡言亂語的三類“護欄”
根據英偉達介紹,目前NeMoGuardrails一共提供三種形式的護欄技術:
話題限定護欄、對話安全護欄和攻擊防御護欄。
Gala Games推出100萬美元的漏洞賞金計劃:5月24日消息,區塊鏈游戲平臺 Gala Games 宣布與 Web3 漏洞賞金平臺 Immunefi 合作推出總獎金為 100 萬美元的漏洞賞金計劃,旨在消除其錯誤和增強安全性。[2023/5/24 15:23:07]
話題限定護欄,簡單來說就是“防止大模型跑題”。
大模型具備更豐富的想象力,相比其他AI更容易完成創造性的代碼和文字編寫工作。
但對于特定場景應用如寫代碼、當客服而言,至少用戶不希望它在解決問題時“脫離目標范圍”,生成一些與需求無關的內容。
Velodrome:團隊擁有的一個錢包被盜,損失35萬美元運營資金:8月4日消息,Optimism上AMM協議Velodrome發推表示,“在今日15:50注意到團隊擁有的一個錢包出現異常活動,顯示該錢包被盜,并損失了35萬美元的運營資金。在發現異常活動后,團隊迅速將該錢包其余資產轉移至多簽中。”[2022/8/4 12:02:34]
這種情況下就需要用到話題限定護欄,當大模型生成超出話題范圍的文字或代碼時,護欄就會將它引導回限定的功能和話題上。
對話安全護欄,指避免大模型輸出時“胡言亂語”。
派盾:5月份DeFi漏洞損失7400萬美元 下降82%:6月1日消息,據派盾預警監測,DeFi漏洞在5月份的損失金額為7400萬美元,下降了82%。此外,截至5月31日,DeFi的TVL從1月份的2000億美元下降到1100億美元,跌幅近50%。[2022/6/1 3:55:01]
胡言亂語包括兩方面的情況。
一方面是大模型生成的答案中包括事實性錯誤,即“聽起來很有道理,但其實完全不對”的東西;
另一方面是大模型生成帶偏見、惡意的輸出,如在用戶引導下說臟話、或是生成不道德的內容。
攻擊防御護欄,即防止AI平臺受到來自外界的惡意攻擊。
這里不僅包括誘導大模型調用外部病APP從而攻擊它,也包括黑客主動通過網絡、惡意程序等方式攻擊大模型。護欄會通過各種方式防止這些攻擊,避免大模型癱瘓。
所以,這樣的護欄要如何打造?
如何打造一個大模型“護欄”?
這里我們先看看一個標準的“護欄”包含哪些要素。
具體來說,一個護欄應當包括三方面的內容,即格式規范、消息和交互流。
首先是格式規范,即面對不同問題的問法時,規定大模型要輸出的內容。
例如被問到“XX文章是什么”,大模型必須給出特定類型的“文章”,而非別的東西;被問到“誰發表了什么”,大模型必須給出“人名”,而非別的回答。
然后是消息定義,這里以“用戶問候”話題為例,大模型可以輸出這些內容:
最后是交互流的定義,例如告訴大模型,怎么才是問候用戶的最好方式:
一旦問候用戶的機制被觸發,大模型就會進入這個護欄,規規矩矩地問候用戶。
具體工作流程如下:首先,將用戶輸入轉換成某種格式規范,據此生成對應的護欄;隨后,生成行動步驟,以交互流指示大模型一步步完成對應的操作;最后,根據格式規范生成輸出。
類似的,我們就能給大模型定義各種各樣的護欄,例如“應對用戶辱罵”的護欄。
這樣即使用戶說出“你是個傻瓜”,大模型也能學會冷靜應對:
目前,英偉達正在將護欄技術整合進他們的AI框架NeMo中,這是個方便用戶創建各種AI模型、并在英偉達GPU上加速的框架。
對“護欄”技術感興趣的小伙伴們,可以試一試了~
來源:易觀 圖片來源:由無界AI工具生成今年以來,隨著人工智能技術不斷實現突破迭代,生成式AI的話題多次成為熱門,而人工智能內容生成的產業發展、市場反應與相應監管要求也受到了廣泛關注.
1900/1/1 0:00:00來源丨元宇宙簡史 編寫丨元宇宙簡史主理人FunOpenAI近日發布條件生成模型Shap-E,可用來生成3D資產.
1900/1/1 0:00:00作者:中國銀行軟件中心?鄧偉財隨著科技發展的突飛猛進,尤其是金融科技發展水平的不斷提升,金融科技的綜合應用程度成為衡量商業銀行競爭力和軟實力的重要組成部分.
1900/1/1 0:00:00原文作者:MUSTAFA、CARL原文編譯:深潮TechFlow與其他任何投資一樣,加密貨幣也有其獨特的風險和挑戰,其中之一是了解代幣的解鎖計劃如何影響價格波動和整體表現.
1900/1/1 0:00:00一、基本信息 2023?年4?月安全事件共造約6000?萬美金的損失,與上個月相比,損失金額有所降落,但安全事件數量依舊不減.
1900/1/1 0:00:00文: 娛樂獨角獸,作者:赤木瓶子,編輯:把青由AI創作的第一首“神曲”走紅不到一個月,便被唱片公司與流媒體聯合抵制下架,這并不是“賽博戰役”的首次打響.
1900/1/1 0:00:00