比特幣交易所 比特幣交易所
Ctrl+D 比特幣交易所
ads

區塊鏈分析中的過度擬合挑戰_VER

Author:

Time:1900/1/1 0:00:00

當與區塊鏈數據集一起使用時,機器學習模型往往會過擬合。什么是過度擬合以及如何解決?

乍一看,使用機器學習來分析區塊鏈數據集的想法聽起來非常吸引人,但這是充滿挑戰的道路。在這些挑戰中,當將機器學習方法應用于區塊鏈數據集時,缺少標記數據集仍然是要克服的最大難題。這些局限性導致許多機器學習模型使用非常小的數據樣本進行操作,以訓練和過度優化那些引起過擬合現象的模型。今天,我想深入探討區塊鏈分析中的過度擬合挑戰,并提出一些解決方案。

過度擬合被認為是現代深度學習應用程序中的最大挑戰之一。從概念上講,當模型生成的假設過于適合特定數據集的假設而無法適應新數據集時,就會發生過度擬合。理解過度擬合的一個有用類比是將其視為模型中的幻覺。本質上,模型從數據集中推斷出錯誤的假設時會產生幻覺/過度擬合。自從機器學習的早期以來,已經有很多關于過擬合的文章,所以我不認為有任何聰明的方法來解釋它。對于區塊鏈數據集,過度擬合是缺少標記數據的直接結果。

歷史上的今天丨肖風:區塊鏈領域能出阿里騰訊級別公司:2019年11月5日,萬向區塊鏈股份公司董事長肖風在接受澎湃新聞采訪時表示,在互聯網時代,全球最大的20家互聯網公司,基本都集中在美國或者中國。可以說,在互聯網時代,中國在全球處于很領先的地位,包括互聯網支付。2011年、2012年,人工智能開始發展起來,中國目前在人工智能領域,在全球所處的地位,可能比互聯網還要領先一些。這也是政府鼓勵發展起來的。現在獨立的一些AI公司,都是在政府大力扶持、鼓勵人工智能技術之后成長起來的。例如做軟件的商湯科技、Face++,做硬件的海康威視、大華股份等,這些公司在過去幾年之所以能夠發展壯大,與政府的大力支持是分不開的。區塊鏈技術出現了。作為中國的最高決策層,他們看到的東西一定比我們多,會更敏銳地捕捉到這樣一個先機。既然互聯網和AI在政府的鼓勵支持下,在全球都獲得了越來越有利的競爭地位,那區塊鏈為什么不能走上同樣的道路呢?這么長時間以來,大家確信,區塊鏈是生產關系的革命,其實和互聯網非常相像。基于區塊鏈的分布式賬本價值傳輸協議,我們一樣可以做出像互聯網時代基于信息傳輸協議的阿里巴巴、騰訊這樣級別的公司。[2020/11/5 11:45:23]

區塊鏈是大型的半匿名數據結構,其中的所有事物都使用一組通用的構造表示,例如交易,地址和區塊。從這個角度來看,有最少的信息可以證明區塊鏈記錄。這是轉賬還是付款交易?這是個人投資者錢包或交易所冷錢包的地址?這些限定符對于機器學習模型至關重要。

動態 | Overstock子公司幫助利比里亞通過區塊鏈促進經濟發展:據cointelegraph報道,Overstock.com子公司Medici Land Governance已與利比里亞簽署了一份諒解備忘錄,以幫助該國將政府服務數字化。該公益試點項目將探討利比里亞如何通過區塊鏈加強經濟,并加強政府部門之間的互操作性。新聞稿還指出,這種基礎設施可以減少腐敗。[2019/6/10]

想象一下,我們正在創建一個模型來檢測一組區塊鏈中的交換地址。這個過程需要我們使用現有的區塊鏈地址數據集訓練模型,我們都知道這不是很常見。如果我們使用來自EtherScan或其他來源的小型數據集,則該模型可能會過度擬合并做出錯誤的分類。

使過擬合變得如此具有挑戰性的方面之一是很難在不同的深度學習技術中進行概括。卷積神經網絡傾向于形成過擬合模式,該模式與觀察到的與生成模型不同的遞歸神經網絡不同,該模式可以外推到任何類型的深度學習模型。具有諷刺意味的是,過度擬合的傾向隨著深度學習模型的計算能力線性增加。由于深度學習主體幾乎可以免費產生復雜的假設,因此過擬合的可能性增加了。

聲音 | 武漢眾邦銀行行長:如今在供應鏈金融更多依靠區塊鏈等技術:據中國經營報消息,武漢眾邦銀行行長程峰在接受采訪時表示,比傳統銀行,民營銀行在供應鏈金融上的科技依賴更強。以前供應鏈金融主要是線下的方式,如今更多的依靠的是區塊鏈技術、AI技術、物聯網技術等等。區塊鏈和5G技術可能在產業互聯網上的應用更大。區塊鏈技術解決了信任機制。[2019/5/5]

在機器學習模型中,過度擬合是一個持續的挑戰,但是在使用區塊鏈數據集時,這幾乎是必然的。解決過度擬合的明顯答案是使用更大的訓練數據集,但這并不總是一種選擇。在IntoTheBlock,我們經常遇到過度擬合的挑戰,我們依靠一系列基本方法來解決問題。

對抗區塊鏈數據集過擬合的三種簡單策略

對抗過度擬合的第一個規則是認識到這一點。雖然沒有防止過度擬合的靈丹妙藥,但實踐經驗表明,一些簡單的,幾乎是常識的規則可以幫助防止在深度學習應用中出現這種現象。為了防止過度擬合,已經發布了數十種最佳實踐,其中包含三個基本概念。

現場|螞蟻區塊鏈正式發布上線供應鏈協作網絡“螞蟻雙鏈通”:金色財經現場報道,1月4日,以“數字金融新原力”為主題的螞蟻金服ATEC城市峰會在上海舉辦。會上,基于區塊鏈技術的供應鏈協作網絡——螞蟻雙鏈通正式發布上線。據螞蟻區塊鏈相關負責人介紹,螞蟻雙鏈通以核心企業的應付賬款為依托,以產業鏈上各參與方間的真實貿易為背景,讓核心企業的信用可以在區塊鏈上逐級流轉,從而使更多在供應鏈上游的中小微企業獲得平等高效的普惠金融服務。據悉,螞蟻雙鏈通已經在2018年10月展開試點。[2019/1/4]

數據/假設比率

當模型產生太多假設而沒有相應的數據來驗證它們時,通常會發生過度擬合。因此,深度學習應用程序應嘗試在測試數據集和應評估的假設之間保持適當的比率。但是,這并不總是一種選擇。

有許多深度學習算法(例如歸納學習)依賴于不斷生成新的,有時是更復雜的假設。在這些情況下,有一些統計技術可以幫助估計正確的假設數量,以優化找到接近正確的假設的機會。盡管此方法無法提供確切的答案,但可以幫助在假設數量和數據集組成之間保持統計平衡的比率。哈佛大學教授萊斯利·瓦利安特(Leslie Valiant)在他的《大概是正確的》一書中出色地解釋了這一概念。

蔬果區塊鏈項目Prodeum眾籌后8天跑路:立陶宛的區塊鏈項目Prodeum于1月20日發起眾籌,僅僅8天后項目方無故下線網站,隨后社交平臺的官方信息也被刪除干凈,既沒有發布任何關于系統被黑客攻擊的聲明,也沒有關于系統臨時維護的聲明。Prodeum原來的愿景為利用以太坊區塊鏈技術革新蔬果行業。網友猜測此為有預謀的詐騙項目,拿錢就跑。[2018/1/30]

進行區塊鏈分析時,數據/假設比率非常明顯。假設我們正在基于一年的區塊鏈交易構建預測算法。因為我們不確定要測試哪種機器學習模型,所以我們使用了一種神經架構搜索(NAS)方法,該方法針對區塊鏈數據集測試了數百種模型。假設數據集僅包含一年的交易,則NAS方法可能會產生一個完全適合訓練數據集的模型。

支持簡單假設

防止深度學習模型過度擬合的概念上瑣碎但技術上困難的想法是不斷生成更簡單的假設。當然!簡單總是更好,不是嗎?但是在深度學習算法的背景下,一個更簡單的假設是什么?如果我們需要將其減少到一個定量因素,我會說深度學習假設中的屬性數量與它的復雜度成正比。

簡單的假設往往比其他具有大量計算和認知屬性的假設更易于評估。因此,與復雜模型相比,較簡單的模型通常不易過擬合。現在,下一個明顯的難題是弄清楚如何在深度學習模型中生成更簡單的假設。一種不太明顯的技術是基于估計的復雜度將某種形式的懲罰附加到算法上。該機制傾向于傾向于更簡單,近似準確的假設,而不是在出現新數據集時可能會崩潰的更復雜(有時甚至更準確)的假設。

為了在區塊鏈分析的背景下解釋這個想法,讓我們想象一下我們正在建立一個模型,用于對區塊鏈中的支付交易進行分類。該模型使用一個復雜的深度神經網絡,該網絡會生成1000個特征以執行分類。如果將其應用于較小的區塊鏈(例如Dash或Litecoin),則該模型很可能會過擬合。

偏差/方差余額

偏差和方差是深度學習模型中的兩個關鍵估計量。從概念上講,偏差是模型的平均預測與我們試圖預測的正確值之間的差。具有高偏差的模型很少關注訓練數據,從而簡化了模型。總是會導致培訓和測試數據的錯誤率很高。或者,方差是指給定數據點的模型預測的可變性或一個告訴我們數據分布的值。具有高方差的模型將大量注意力放在訓練數據上,并且沒有對以前從未見過的數據進行概括。結果,這樣的模型在訓練數據上表現很好,但是在測試數據上有很高的錯誤率。

偏差和方差與過度擬合如何相關?用超簡單的術語來說,可以通過減少模型的偏差而不增加其方差來概括泛化的技巧。深度學習的一種良好做法是對它進行建模,以定期將產生的假設與測試數據集進行比較并評估結果。如果假設繼續輸出相同的錯誤,則說明我們存在很大的偏差問題,需要調整或替換算法。相反,如果沒有明確的錯誤模式,則問題在于差異,我們需要更多數據。

綜上所述

? 任何低復雜度模型-由于高偏差和低方差,容易出現擬合不足。

? 任何高復雜度模型(深度神經網絡)-由于低偏差和高方差,容易出現過度擬合。

在區塊鏈分析的背景下,偏差方差摩擦無處不在。讓我們回到我們的算法,該算法嘗試使用許多區塊鏈因素來預測價格。如果我們使用簡單的線性回歸方法,則該模型可能不合適。但是,如果我們使用具有少量數據集的超復雜神經網絡,則該模型可能會過擬合。

使用機器學習來分析區塊鏈數據是一個新生的空間。結果,大多數模型在機器學習應用程序中都遇到了傳統挑戰。根本上,由于缺乏標記數據和訓練有素的模型,過度擬合是區塊鏈分析中無所不在的挑戰之一

Tags:區塊鏈RODPROVER區塊鏈域名如何注冊ROD價格props幣前景Petaverse

幣安交易所app下載
美CFTC主席暗示以太坊期貨即將推出 美國應在區塊鏈領域發揮領導作用_比特幣

據Decrypt 2月1日報道,美國商品期貨交易委員會(CFTC)主席希思?塔爾伯特(Heath Tarbert)最近表示.

1900/1/1 0:00:00
A股開市跳水助BTC上破?影響有限忌過度解讀_BTC

農歷新年過后A股第一個交易日并不令人意外地重現了上一次出現類似大規模疫情后的大跌表現,上證指數開盤跌近9%,個股方面除醫療概念股取得了相對強勢的表現外其他版塊個股迎跌停潮.

1900/1/1 0:00:00
金色趨勢丨主流帶動比特幣這一波能走多遠?_OLA

近期BTC的走勢不可謂不強勢,從前面6400美元一路反彈上來,到目前漲幅接近60%,價格再度收回至10000美元上方,這段時間上漲放量回調縮量,周線MACD金叉向上.

1900/1/1 0:00:00
金色前哨丨BiKi發布全新用戶體系、階梯手續費制度并支持BiKi抵扣手續費_BTC

今日,BiKi關于發布全新用戶體系、階梯手續費制度并支持BiKi抵扣手續費方案的正式公告,原文如下: 親愛的用戶: 自BiKi推出用戶體系及階梯手續費試運行以來,得到了用戶的積極反饋與喜愛.

1900/1/1 0:00:00
發力去中心化領域,用技術與創新共推支付生態_區塊鏈

隨著數字貨幣被越來越多的人接受,整個加密貨幣市場交易金額不斷上升,交易所作為連接區塊鏈投資一級和二級市場的橋梁,在數字貨幣經濟體中扮演著至關重要的角色.

1900/1/1 0:00:00
金色前哨丨美聯儲真的要發行央行數字貨幣了?_FACE

金色財經 區塊鏈2月6日訊  根據美國聯邦儲蓄委員會理事萊爾?布雷納德(Lael Brainard)透露,他們正在研究圍繞數字支付和貨幣設計和法律方面的問題.

1900/1/1 0:00:00
ads