比特幣交易所 比特幣交易所
Ctrl+D 比特幣交易所
ads
首頁 > 波場 > Info

ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_CHA

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

Chardan總經理:資本市場對加密貨幣公司來說仍然不太友好:金色財經報道,投資銀行Chardan總經理Brian Dobson表示,資本市場對加密貨幣公司來說仍然不太友好。SPA CInsider的數據顯示,自從2021年的狂熱隨著次年初加密貨幣寒冬以來,九家希望通過SPAC上市的數字資產公司已經放棄了他們的計劃。其中包括穩定幣發行商Circle、加密貨幣交易所Bullish Global和經紀公司eToro。這些公司的交易估值從1.6億美元到超過100億美元不等,自2021年3月以來,已宣布的價值超過350億美元的加密SPAC交易未能完成。[2023/7/5 22:18:27]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

Atari Chain推出Atari DEX擴展區塊鏈游戲生態系統:Atari Chain推出去中心化交易所Atari DEX,以擴展其區塊鏈游戲生態系統。Atari DEX是Atari Chain為其加密貨幣生態系統推出的首批工具之一。Atari DEX最初支持Atari Token、以太坊和Fantom三種代幣,之后將添加更多交易對。(Coinquora)[2021/8/6 1:39:12]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

鏈上ChainUP榮獲“2020星勢力最具技術實力區塊鏈公司”:據官方消息,10月25日,在2020區塊鏈年度盛典暨第二屆博鏈財經“星勢力”頒獎典禮上,鏈上ChainUP榮獲“最具技術實力區塊鏈公司”。

在2020年,鏈上ChainUP陸續推出了合約體驗金、混合合約、合約跟單、合約流動性、流動性挖礦、自定義杠桿倍數ETF等功能,同時緊跟行業熱點,第一時間上線DeFi、波卡等熱門幣種交易區。近期,鏈上ChainUP推出了一條獨立的產品線:鏈上ChainUP WaaS聯盟,依托集團3年時間所服務的300多家交易所經驗,將底層資產托管和錢包封裝成一套完整的服務,包含資產托管、節點服務、主鏈幣種開發、熱門幣種一鍵接入、共管錢包、借貸理財等多種功能服務,目前,已有超過500家企業加入ChainUP WaaS聯盟。[2020/10/26]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAChainAINHAIYi Cloud ChainFTJ ChainThemis Chaindigichain幣未來價值

波場
萬字分析衍生品王位之爭:dYdX、GMX 與 SNX_SNX

文章來源:CipholioVentures撰文:ScarlettHe本研究將介紹三個目前在衍生品領域中的王者:dYdX、GMX和SNX。我們將會探討每個項目的基本概況、重要數據以及代幣經濟學.

1900/1/1 0:00:00
OpenAI逆天正式開放ChatGPT API 100萬個單詞才18元 全民AIGC時代真的要來了_PEN

ChatGPT爆火之后,各種「自制API」層出不窮,中間商們也一個個賺得盆滿缽滿。這次,OpenAI終于下定決心——正式開放ChatGPTAPI!ChatGPTAPI地址:https://pla.

1900/1/1 0:00:00
美國第一個 100% 核能比特幣礦場誕生 能否可持續發展?_比特幣

摘要: 近期,美國首個承載比特幣挖礦服務的核動力數據中心宣告正式建成。這一事件使得核能挖礦再次進入了人們的視野.

1900/1/1 0:00:00
兩萬字說透LSD生態:監管、投資、賽道機會_ETH

原文來源:Shield?華語頻道原文編輯:SevenUpDAO本篇旨在系統講解?LSD?賽道從上游到下游的全景及競爭概況,從質押邏輯到后續推演和投資機會均有涉及.

1900/1/1 0:00:00
一文探討Arbitrum的代幣經濟、機構成本和估值分析_ARBI

原文作者:@Ryanqyz_hodl原文來源:SevenUpDAO 摘要: (?1)估值:與OP比較,使用FDV相對估值,SARB的價格應在2.088左右.

1900/1/1 0:00:00
八款常用 Web3 錢包誰更勝一籌?_DAP

撰文:Karen,ForesightNews去中心化錢包作為Web3超級流量入口,不僅僅承載著數千萬乃至上億用戶的真金白銀,也充當著連接不勝枚舉的DeFi、元宇宙、鏈游以及社交應用的網關.

1900/1/1 0:00:00
ads