派客國際投資有限公司??蘇文杰
摘要:本文分析了大額BTC和USDT轉賬對瀑布行情的影響。在此過程中使用了近鄰傳播聚類算法對大額轉賬數據進行分類,并根據各類簇的具體情況給出了其對應的威脅水平。
短時間內,行情大幅上漲或下跌的現象被稱作瀑布行情。例如,1分鐘內行情下跌幾百美元,或幾分鐘內上漲一千美元。瀑布行情的出現常常與大額轉賬有關。
本文收集了BTC和USDT的大額轉賬數據,使用了近鄰傳播聚類算法等方法對數據進行了相關分析,嘗試以此角度來構建量化交易策略。
下面先簡要介紹近鄰傳播聚類算法。
一、近鄰傳播聚類算法-
聚類分析
聚類分析是研究物以類聚的一種數理統計方法。聚類分析來自于分類學,在古老分類學里主要依據是經驗以及專業知識。隨著科技的發展,人類認知的深入,有時僅憑經驗和專業知識己經不能滿足分類精細化的要求,單純依靠經驗很難保證分類的準確性。因此研究者將數學應用到古老分類學中,建立了數值分類學。隨著多元統計分析知識的引入,聚類分析又逐漸從數值分類學內分離出來,成為一個重要的研究分支。
聚類分析本質是研究分類問題。根據歸屬類別的差異,可將聚類劃分成硬聚類和軟聚類,硬聚類是指各個對象被分到唯一的一個類簇中,軟聚類則指各個對象以一定程度屬于各個類簇,本文討論的是硬聚類。
聚類分析作為一種無監督學習方法,是在沒有相關背景知識的情況下,通過某種相似性度量,將數據集合并成不同的類簇,使得被分到同一類簇的元素相似程度較高,而不同類簇的元素相似程度較低,從而找到數據的分布結構以及數據屬性間的關系。聚類分析一直是機器學習、數據挖掘、模式識別等領域的一個重要、活躍的研究方向。
常見聚類算法的分類
1、基于層次的聚類算法
層次聚類算法又稱作“系統聚類算法”,它有凝聚算法與分裂算法兩類。凝聚算法初始時將每個樣本點視為單獨的一個類簇,接著合并相似度較高的樣本點,符合終止條件時合并停止,確定最終劃分;分裂算法初始時將所有對象看作一類,再逐步細分,達到終止條件時停止分裂。
數據:20分鐘內發生3筆10億枚及以上CRO大額鏈上轉賬:10月10日消息,Whale Alert監測數據顯示,20分鐘內發生多筆CRO大額鏈上轉賬移動,分別為10億枚(約1.07億美元)、10億枚(約1.07億美元)、13.33億枚(約1.43億美元)。[2022/10/10 12:51:55]
考慮到大規模數據集的問題,有許多改進的層次聚類算法被提出,如CURE、BIRCH、ROCK等。
2、基于密度的聚類算法
基于密度的聚類算法選取樣本點的密度作為相似性度量準則,首先考察樣本點在等范圍區域內的分布密度,再合并鄰近且密度較大的區域,最后得到若干個密度比較高的區域構成的類簇。
3、基于網格的聚類算法
基于網格的聚類算法首先將聚類對象分成若干個網格單元,再統計網格單元里的密度信息,最后將相鄰的高密度網格單元合并為一類。
4、基于劃分的聚類算法
劃分型聚類算法首先將數據集劃分為k類,每個劃分表示一個聚類簇,然后運用迭代法更新劃分,滿足終止條件時停止迭代。目前在各領域廣為使用的K-means、K-medoids聚類算法均是基于劃分的聚類算法。
2007年,BrendanJ.Frey和DelbertDueck首次提出了屬于劃分型聚類方法的近鄰傳播聚類算法。
5、基于模型的聚類算法
基于模型的聚類算法為每一個類簇假定一個模型,尋找這些模型與數據集的最佳匹配。這類聚類算法不僅可以獲得數據集的類簇劃分,還可得到到各類簇相應的特征描述,通常有概率模型和神經網絡模型兩類。常用的有高斯混合模型(GMM)、自組織映射(SOM)算法。
聚類算法的特點
1、常用聚類算法的特點
各聚類算法基于不同的聚類思想,其特點不盡相同:對于BIRCH算法、CURE算法等在內的基于層次的聚類算法,其實現雖然較為簡單,但一旦某步聚類完成,將不可撤銷,同時對大數據聚類時的時間耗費較大,需要進行預聚類或采樣以減少時間耗費;基于密度的聚類能夠有效地過濾“噪聲”數據,可對含有復雜形狀類簇的數據進行聚類,但其在計算區域密度時耗費時間較長,而且在界定稠密區和稀疏區上較為困難,對參數較為敏感,多數情況下應用于具有低維度任意形狀的類簇聚類問題;基于網格的聚類算法,時間復雜度、精度均與量化的空間單元數目有關,如何確定合適網格的大小較為困難;基于模型的聚類算法一般需要針對某種具體數據集建立具體的模型,對模型參數取值較為敏感,算法的泛化能力較差,例如SOM算法就對初始權重、學習率以及鄰域半徑的選擇較為敏感;基于劃分的聚類算法如K-means、K-medoids等計算復雜度較低、收斂速度快,目前在工業生產等方面應用較為廣泛,但存在以下問題:
ETH出現超16.7萬枚大額轉賬:金色財經報道,Whale Alert數據顯示,北京時間10月28日23:51,167069.48枚ETH從0x95ca開頭未知錢包地址轉入0xf28e開頭未知錢包地址,價值約6467.46萬美元,交易哈希為:0x9879ac0cd4d8ba517ea6be9ccef3f9f9fdaff93666d28623d127b3170206dbb8。[2020/10/29]
基于對象之間的距離進行聚類,傾向于發現大小相近的凸形簇,而在發現任意大小、形狀的類簇上比較困難;
一般需要指定聚類個數,不能完全再現數據本身的結構信息;
需要指定初始聚類中心,算法最終的聚類結果對初始中心的選擇較敏感,容易陷入局部最優;
需要多次調整聚類個數、聚類初始中心,以獲得較優的聚類結果,使得在處理大規模和復雜數據的聚類問題上,獲得較好聚類結果的時間復雜度增大。
2、近鄰傳播聚類算法的特點
近鄰傳播聚類算法基于因子圖理論構造聚類網絡模型,將所有樣本點看作潛在的聚類代表點,作為網絡中的節點。通過節點間的信息傳遞,每個點不斷累積自己作為代表點的證據,最終找到合適的代表點,得到最優的類代表集合使得網絡相似度最大,完成聚類。
與傳統聚類算法相比,近鄰傳播聚類算法無需指定初始聚類中心,有效地解決了常用聚類算法中初始聚類中心的選取問題,適用范圍更廣,同時因子圖中信息傳播技術的引入使得它的計算效率更高。
為了滿足不同的應用需求,相應的基于它的改進和擴展型算法也被大量提出。
近鄰傳播聚類算法簡介
1、距離函數
在聚類分析中,空間相似性計算模型最為常用。而空間關系一般由空間距離來刻畫。
除此之外,常用的還用馬氏距離、閔可夫斯基距離、曼哈頓距離、切比雪夫距離。可根據實際情況選用距離函數。
動態 | USDC出現1500萬枚大額轉賬:2月13日,穩定幣USDC鏈上出現大額轉賬,0x457e開頭地址向0xa0b8開頭地址轉入1500萬枚USDC,交易ID為:0xfb692a77ee3a156d279bb74f29d6928097f99305703f1d83bed46d2eee0f406a。[2019/2/13]
2、相似度矩陣S的構造
近鄰傳播聚類算法是基于數據間的相似度矩陣S來聚類的。傳統的近鄰傳播聚類算法使用負的歐式距離的平方作為度量相似度的方法,即
3、偏向參數P的設定
矩陣S的對角線上的元素s(k,k)稱為偏向參數P,表示數據點k作為類代表點的合適程度。近鄰傳播聚類算法中將每個點的偏向參數P設為一樣的值,通常選取所有對偶點相似度的中值,即初始時假設所有點成為類代表的可能程度相同。通常,P越大表示更多的點傾向于成為類代表點,故類簇的個數越多,反之類簇的個數越少。故該算法能夠通過變換P值來獲得合適的聚類數。由于消息傳遞過程由相似度s(i,k)和P值同時決定,所以聚類數目與P不是嚴格的線性關系。
4、吸引度矩陣R和歸屬度矩陣A
吸引度矩陣R
歸屬度矩陣A
5、決策矩陣
圖1
二、數據獲取和統計
利用程序獲取自北京時間2019-08-1516:28至2019-08-2111:34時的較大額的轉賬數據,隨后,BTC行情迅速下跌約300美元,以當時的期貨永續合約行情為例:
圖2
這里只分析流入和流出交易所的數據。為了便于比較,將BTC和USDT均換算為USD,由于在數據收集期間兩者價值的波動不大,因此將它們換算為USD后能夠大致了解資金流入和流出的情況。下表列出了數據的統計情況:
表1
為了方便觀察,將上表繪圖如下:
分析 | BTC現價值約2760萬USDT大額轉賬:據Chaindigg消息,今日16時36分BTC發生1筆大額轉賬,即3FQyPfSwtG開頭的地址向18mkjbVa開頭的地址轉賬5000個BTC,價值約2760萬USDT,交易哈希值為:22e23ae9ca1c13f04c614ce9199e3b1cd3cfec5f44a93d6dfee8fe44032d5c3c[2018/11/17]
圖3
進一步地,我們還可以更細致地觀察流入交易所的BTC的情況,將其繪圖如下:
圖4
三、大額BTC和USDT轉賬的聚類分析
???流入交易所的大額BTC和USDT轉賬可能對行情產生重要的影響,下面將著重對其進行分析。
數據分布情況
將流入交易所的較大的BTC和USDT轉賬繪圖如下。其中藍色點為BTC轉賬,紅色點為USDT轉賬,橫坐標為北京時間的時間戳,縱坐標為轉賬額度:
圖5
但實際上我們只關心大額轉賬數據,將轉賬額度限定為300萬美元及以上,篩選后可得
圖6
對大額BTC和USDT轉賬進行聚類分析
單獨的個別轉賬能夠造成的影響可能較小,我們主要考慮多個轉賬的協同活動。多個轉賬可能是為了在期貨和現貨上統一部署,完成一系列操作并獲利。
在使用近鄰傳播聚類算法時,假設以如下兩點作為聚類的原則:
1、時間上相差不大于一天的多個轉賬可能是協同的,有較大概率是同一個莊家/大戶想要影響行情,或不同的莊家/大戶想要一同影響行情;
2、資金大致為同一個量級的多個轉賬可能是協同的,也有較大概率是同一個莊家/大戶想要影響行情,或不同的莊家/大戶想要一同影響行情。
同時滿足以上兩點的轉賬有較大概率會成為同一類簇。
動態 | BTC昨日大額轉出共計1094筆:據Searchain.io數據顯示:昨日BTC大額轉賬轉賬數量在100到200BTC(包含200)之間的轉賬筆數占總大額轉賬筆數的56.86%,大額轉賬數量占總體的29.00%。轉賬數量在200到600BTC(包含600)之間的轉賬筆數占總大額轉賬筆數的35.65%,大額轉賬數量占總體的41.00%。轉賬數量超過600BTC的轉賬筆數有82筆,占總大額轉賬筆數的7.50%,大額轉賬數量占總體的30.00%。昨日大額轉出共計1094筆,總數量為286190.03個BTC。[2018/10/6]
為了滿足以上兩個聚類的原則,我們需要根據實際情況改進傳統近鄰傳播聚類算法,即使用新定義的距離公式來計算相似度矩陣,由此可得聚類結果:
圖7
由上圖可知,大額BTC和USDT轉賬被分為了5類。下面將分別給出各類簇對行情的威脅程度,以“威脅水平”來表示。
四、大額BTC和USDT轉賬各類簇的威脅水平
我們借鑒了態勢估計和基于屬性分析的威脅評估思想來確定大額轉賬各類簇的威脅水平的評定。
態勢估計-
兩伊戰爭時美海軍指控系統偶有異常便造成災難性的后果。尤其是USSSTARK及USSVINCENNES兩次事件中指揮官對目標威脅的誤判,促使美軍軍事思想發生變革,提出態勢估計的概念,目的是為了減少由于目標誤判引起與友方或中立方的戰損。目前對態勢估計(situationassessment,SA)的認識尚不統一,比較權威的是美國國防部聯合領導實驗室數據融合小組提出的數據融合處理模型,明確地將態勢和威脅估計作為2級和3級融合處理的內容:將來自許多傳感器和信息源的數據和信息加以聯合、相關和組合以獲得精確的位置估計和身份估計,以完成對戰場態勢和威脅及其重要程度進行實時、完整評價的處理過程。
屬性分析是指對威脅評估過程中的屬性進行分析以獲得對屬性的深入理解,并以此指導威脅評估過程。由于屬性貫穿于威脅評估的全過程,因而包括:屬性的來源及選擇、屬性的重要性度量、屬性與威脅排序的關系以及屬性的使用等。
下面以戰場上一個簡單的情況為例:
1、敵軍步兵部隊抵達我軍陣地前方,此時有可能對我軍發起進攻;
2、一段時間后,敵軍炮兵部隊抵達,步炮協同的情況使得其發起進攻的可能性大幅增加,威脅程度進一步增大;
3、一段時間后,敵軍裝甲部隊抵達,因此極有可能馬上發起進攻,具有很強的威脅性。
下面將借鑒以上的思路來提供一個判定大額轉賬各類簇威脅水平的方案。
大額轉賬各類簇的威脅水平
分析轉賬數據,可知某些大額轉賬是從某交易所轉至相同交易所/不同交易所,這時雖然交易所的總體流入情況不變,但這里依然將其視作可操作資金,納入到威脅水平的判定中。可選用以下方案判定大額轉賬各類簇的威脅水平:
1、等級0
若無大額轉賬數據,或只有單個大額轉賬但其價值小于閾值V,則令其為等級0。
2、等級1:
若只有單個大額轉賬,且其價值大于閾值V,則令其為等級1;
若某類簇只有BTC轉賬,或只有USDT轉賬時,BTC轉入現貨交易所可能是為了砸盤,轉入期貨交易所則不易判斷其操作方向,而USDT轉入現貨交易所可能是為了拉盤,此時令該類簇為等級1。
3、等級2
當某類簇中BTC和USDT轉賬均存在時,令該類簇為等級2。
此時莊家/大戶可能在現貨和期貨上同時進行操作。例如在現貨上先拉盤獲取籌碼,等待散戶繼續拉升后,砸盤再買回籌碼,同時在期貨上進行相應建倉以獲利。
需要指出的是,獲取籌碼和砸盤之后再買回籌碼的過程也可通過OTC交易完成,這樣對行情不會產生影響,而這就不在我們的數據監控范圍之中了。
4、等級3
經過一段較平穩的行情后,若某類簇的最后一個數據的時間與北京時間相差在t1小時至t2小時之間(t1在這種情況下,莊家/大戶可能正在期貨上建倉,大量的掛單使得行情無法劇烈波動,經過t1小時后應該已經建倉完畢了,故威脅程度進一步增加。而若超出t2小時仍沒有發生瀑布行情,則表明此類簇的形成可能只是巧合,故取消本次威脅水平增加的級別。
5、多個類簇下威脅水平的評定
上文闡述了針對單個類簇如何評定其威脅水平。
在多個類簇同時存在時,可統計各類簇的資金量大小,若資金量相差較大,則可選用資金量最大的類簇的威脅水平來代表整體;若資金量相差不大,為了謹慎起見,可取各類簇中威脅水平最大的等級來代表整體。
如圖7所示,本輪收集的大額BTC和USDT轉賬被分為了5個類簇,其中某類簇的威脅水平已達到了等級3,故可用等級3來代表其整體的威脅水平。
五、結論與討論
本文分析了大額BTC和USDT轉賬對瀑布行情的影響。在此過程中使用近鄰傳播聚類算法對轉賬數據進行了分類,并提供了一個判定各類簇威脅水平的方案。當其整體威脅水平達到等級2時,部分量化程序應進入保守模式,當威脅水平達到等級3時,部分量化程序可暫停運行。在出現瀑布行情后,可認為之前的大額轉賬的效果已被體現,可將數據全部清除,獲取新的大額轉賬數據并進行分析,為下一次瀑布行情的到來做好準備。
盡管在處理多數聚類相關問題上,近鄰傳播聚類算法具有明顯的優勢,但其仍存在一些問題和局限性,例如:1、偏向參數的選擇問題;2、震蕩問題,當震蕩發生后算法不能自動消除震蕩并收斂;3、復雜的混合分布和非球狀數據簇聚類問題,處理這類數據簇聚類問題時算法還有待進一步完善,等等。目前,人們已針對其提出了較多的改進和擴展型算法,這里就不再贅述了。除此之外,對于大額轉賬數據還有許多細節值得去挖掘,這有待今后對其進行更加深入的討論。
參考文獻
唐丹.改進的近鄰傳播聚類算法及其應用研究.南京理工大學碩士學位論文,2016.1-12
李萍.AffinityPropagation聚類算法的改進及其應用研究.浙江大學碩士學位論文,2017.2-21
霍龍杰.AffinityPropagation聚類算法的研究及應用.東南大學碩士學位論文,2012.20-24
BrendanJ.Frey,DelbertDueck.ClusteringbyPassingMessagesBetweenDataPoints.Science,2007,315(5814):973
韓占朋,王玉惠,程聰.態勢估計方法研究綜述.航空兵器,2013,(1):14
王猛,章新華,夏志軍.基于屬性分析的威脅評估技術研究.系統工程與電子技術,2005,27(5):849
李永新.基于屬性識別理論的網絡威脅評估方法.計算機應用,2009,29(4):956
巴比特現場報道,美國當地時間8月24日,“2019比原鏈全球開發者大會”在美國舊金山正式開幕。在主題為“公鏈挑戰與趨勢”的圓桌上,ETCLabs主管DarinKotalik認為,不管PoW還是P.
1900/1/1 0:00:00親愛的用戶: Binance已完成CELR的活動,所有獎勵已全部分發,請在“用戶中心-分發記錄”查看分發結果.
1900/1/1 0:00:00Augmento的一項新研究表明,Tether情緒、市值和價格之間存在正向相關性,這可能被操縱或利用來創造套利機會。Augmento指出,Tether情緒似乎并不正常.
1900/1/1 0:00:00Augmento通過研究過去22個月的93種Tether情緒數據后發現:1.Tether的負面情緒顯然占據主導地位.
1900/1/1 0:00:002018年8月,DharmaLabs聯合創始人和首席運營官BrendanForster懷著去中心化金融會成為未來主流的信念,首次提出「DeFi」的概念.
1900/1/1 0:00:00親愛的用戶: 您好! 感謝您對ZG.COM的NEW打新計劃第13期項目CSPC的關注,目前所有認購結果已計算完畢,CSPC已發放完畢.
1900/1/1 0:00:00