比特幣交易所 比特幣交易所
Ctrl+D 比特幣交易所
ads
首頁 > 酷幣 > Info

躁動圖計算:螞蟻和字節們想找到“幻視”額頭上那顆寶石_人工智能

Author:

Time:1900/1/1 0:00:00

在美劇《國土安全》里常出現這樣的橋段:警員在自己家里理出一面墻,把手上案件里的所有關聯人物和事件都貼在墻上,然后就是一個填肉的過程......照片、箭頭和關鍵詞組成一幅復雜的事件全貌。

——找到那個罪犯。

這幾乎是所有懸疑電影的經典場景。整個案件唯一的破綻就藏在這張關系網絡里,推理者的視線在這面墻上流轉,觀眾的腎上腺素也被極速調動起來。

圖源:《國土安全》劇照

我們會覺得這是合理的,設想中人類最敏銳的大腦可以穿破墻上的迷霧——如果墻上只有5個家庭,10個嫌疑人,和關于他們的100件事的話。

但如果把這面墻無限擴大,比如1億個嫌疑人,100億件事呢?

看起來這已遠超人腦的負載極限,但我們可能已經見過這樣的事了——或許你我的手機里就正在經歷這些——比如各式各樣的知識圖譜,以及在它底層,一個抽象出來叫做圖計算的技術概念。

圖計算緣起

“Things,notstrings.”

Google在2012年5月提出了這句話,以及知識圖譜的概念。

知識圖譜,由知識和圖譜兩個詞構成,前者是信息的內容要素,后者是信息最終的表現形態。這種信息間全新的連接方式,其基本組成單位是“實體—關系—實體”三元組,以及實體及其相關屬性—值對,實體之間通過關系相互聯結,構成網狀的知識結構。

知識圖譜能夠成立的核心是計算機的知識推理機制,圖計算為其提供了重要的底層技術支持。

圖計算中的“圖”即Graph,這是一種基于圖論而非數論的計算邏輯。

圖論的基本要素是“節點”和“邊”,“節點”可以理解為人或者網絡賬號這些相對靜態的實體,而“邊”則代表著不同實體之間的關系或者行為。

Hashkey Exchange:將于今日移除ETH/BTC交易對:金色財經報道,根據Hashkey Exchange官方公告,該平臺將于2023年08月03日16:00點(UTC+8)移除ETH/BTC交易對,受影響的范圍包括現貨交易和充值和提現,所有掛單將自動取消,用戶仍可以在HashKey Exchange平臺上可用的其它交易對中交易上述幣種,ETH的充值和提現將不受影響。

金色財經此前報道,HashKey Exchange宣布獲得香港頒發的加密交易所許可證。[2023/8/3 16:15:38]

比如A在抖音上關注了B,這個動作就成為A和B之間這條“邊”上可包含的信息。“邊”在記錄內容的時候可以表示方向,這被稱為有向圖,而如果“邊”沒有標注方向則稱為無向圖。這種信息數據甚至可以是多模態的,比如在腦科學領域涉及光或電信號的時候。

相比于鏈表或者線性表的二維結構,“圖”相當于在結構上做了一次升維,這也讓其對于“關系”有更優越的描述能力,也更接近人類對于事物聯系的原生表達。

圖源:源于網絡

簡單來講,我們從來不是以Excel的樣子來理解外部世界的,圖的相互連接更接近正常人的思考方式。從遙遠的阿蘭?圖靈時代開始,人類就在思考如何讓機器像人類一樣思考,圖計算是目前為止最有潛力的路徑。

一開始只是試圖找到從鹿特丹到格羅寧根的最短路徑,荷蘭計算機科學家Dijkstra為了解決這個問題在1956年發明了尋求圖最短路徑的Dijkstra算法,這是最早與圖計算連接起來的概念之一。到Google創始人LarryPage在20世紀末發明了開創性的PageRank算法,以及隨著社交網絡時代降臨而繁榮起來的如Girvan-Newman算法等社區發現算法。

TriBuzz項目Discord服務器已被入侵:金色財經報道,據CertiK監測,TriBuzz項目Discord服務器已被入侵,黑客發布了虛假空投鏈接。在團隊確認他們已經恢復服務器的控制權之前,請勿點擊任何鏈接。[2023/4/6 13:47:38]

這其中也能看出來,圖計算的定義本身也在經歷一個從狹義到廣義的延展過程。

狹義的圖計算更多指在確定不變的圖上做的計算,比如基于地圖信息的路網圖——在變化頻率和幅度很低的鹿特丹到格羅寧根之間尋找一條最短路徑——這是圖計算可以解決的典型問題。

廣義的圖計算指一切基于圖數據進行的分析計算,其中的數據概念進而擴充到海量規模并且富于動態變化,比如社交媒體的關系網絡,不斷發生新事件的歷史知識圖譜,或者將道路擁堵變化也考慮在內的路徑規劃。

于是圖數據庫的概念被引入進來。

圖數據庫是用來處理圖這種數據結構的工具,傳統的使用二維表格存儲數據的數據庫被稱為關系性數據庫——或者可以被理解成無數以橫豎軸結構展開的表數據的集合,圖數據庫則是另一種非關系性數據庫,它把所有表格打散了,然后織成一張網。

圖數據庫與關系型數據庫最大的不同是免索引鄰接。即圖數據模型中的每個節點都會維護與它相鄰的節點關系,這就意味著查詢時間與圖的整體規模無關,只與每個節點的鄰點數量有關,這使得圖數據庫在處理數據之間關系方面比關系性數據庫更加靈活之外,也具備處理大量復雜關系時比后者更優越的性能。

Google創始人LarryPage圖源:LearnBiography

圖計算與圖數據庫的發展是互聯網時代的一條暗線,在其中一些關鍵技術背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你還記得2007年開始爆發的那場金融危機的話——萊曼兄弟公司破產,高盛卻因為提前預見到了次級抵押貸款市場的熊市而活了下來,背后是圖數據庫系統——SecDB對危險的察覺能力。

Cyber Capital創始人:Polygon管理密鑰采用多重簽名 含4位創始人:金色財經報道,Cyber Capital創始人Justin Bons發推稱,不支持Matic,中心化風險太大:Polygon的管理密鑰采用5/8多重簽名保護,但其中包括4位創始人。[2023/3/9 12:51:27]

不遑說,今天許多偉大公司都是基于圖計算領域的尖端技術而誕生或持續繁榮的。

而在經歷了幾十年的發展之后,圖計算現在站到了更廣泛的應用場景入口。

咨詢公司Gartner在《2021年十大數據和分析技術趨勢》的報告中預測,2025年全球將有80%的數據和分析創新會與圖技術有關。

在這屆世界人工智能大會上,與圖計算或圖數據有關的論壇數量也多達五場,是本次大會上被最高頻的概念之一。如螞蟻集團、亞馬遜云等矚目的圖數據庫框架,也在本屆WAIC上首次開源。

圖計算作為一種技術在國內開始成熟的標志是,小范圍的數據已無法探索技術上限,它比以往任何時候都需要更大的試驗場,比如6億用戶的抖音,或者12億用戶的支付寶。越來越多大型科技公司出現在關于圖計算的討論中。開源是產業化的隱喻,產業化的加速使圖計算開始獲得更豐富的能力縱深,甚至早已不局限在知識圖譜的領域。

抖音與支付寶,兩條路徑

2018年8月,字節跳動內部開始自研圖數據庫ByteGraph的開發。

ByteGraph項目的發起是為了抖音核心的社交關系問題。個性化推薦系統逐漸成為互聯網各大社交媒體和電商網站的基礎能力。與此并行的,知識圖譜的場景也正在豐富,大量研究工作逐漸指向兩者的交匯處,圖計算與知識圖譜可以用來完善基于內容的推薦系統,從而提升推薦效果。

這是圖計算在字節跳動內的起點,并由此開始進入業務的底層開發場景。從抖音開始,ByteGraph逐漸演變為支持有向屬性圖數據模型、支持寫入原子性、部分Gremlin圖查詢語言的通用圖數據庫系統,隨后逐漸滲入今日頭條、TikTok、西瓜、等幾乎字節跳動全部產品線。

方舟基金創始人:方舟基于加密貨幣監管不確定性出售了部分Coinbase股票:金色財經消息,方舟基金創始人Cathie Wood表示,美聯儲明年將迎來降息。美國經濟陷入衰退,我們將100%投資于創新。方舟基于加密貨幣監管不確定性出售了部分Coinbase股票。(金十)[2022/8/9 12:10:45]

圖源:知乎

“字節跳動整個業務開發團隊,已經都在用圖建模的方式來表達和處理業務邏輯”,ByteGraph團隊負責人張帥表示。

開發團隊圍聚在一起探索業務時,往往會拽過來一塊白板,把初步的開發邏輯和任何靈感寫在一起。這某種程度上即是一種知識圖譜,并且天然與人類大腦思維接近。但此前這樣一張思維導圖需要被重新整理——可以理解為把圖文并茂的圖降維成一張Excel——再進入開發步驟。

但現在基于圖計算和圖數據庫,這張白板上的草圖可以直接被代碼化了。

在電商、到店業務甚至音樂等更復雜的場景嵌進信息流與社交屬性后,“圖”作為一種關系邏輯的重要性在字節跳動內完全顯示出來了。張帥透露ByteGraph已經在火山引擎上開始構建,這意味著字節跳動的圖數據庫開源已經開始提上日程。

在圖數據庫的進展方面,螞蟻集團走在字節跳動前面。在本屆WAIC上,螞蟻集團宣布開源圖數據庫TuGraph的單機版本。

螞蟻集團的圖數據庫研發從2015年開始,隔年第一次發布自研分布式圖數據庫并用于支付寶。2021年,螞蟻集團聯合清華大學自主研發的“大規模圖計算系統GeaGraph”完成了產品3.0版本的迭代。迭代后的版本查詢效率提升10倍,兼容性更強,并且正式升級為TuGraph。

相比抖音,支付寶背后有一張更龐大的用戶關系網絡,而其圍繞支付展開的科技金融業務,也讓兩者在進入圖計算領域的側重上分出差異。

BlockFi CEO:未直接持有GBTC,僅有幾筆以GBTC為抵押品小額貸款:7月12日消息,BlockFi首席執行官Zac Prince在發推表示,BlockFi目前沒有直接持有GBTC,BlockFi有幾筆以GBTC作為抵押品的小額貸款(如低于1000美元)且正在逐步退出。

據悉,BlockFi與三箭資本此前一度是GBTC最大持倉機構,據此前Grayscale曾經披露的SEC Form 13F文件,僅BlockFi和三箭資本兩家機構的GBTC持倉占比一度達到了11%(機構持有比例占總流通不超過20%)。[2022/7/12 2:07:10]

圖源:MobileWorldLive

螞蟻集團看中的是圖計算中增強“薄”數據的表征,從而增強支付安全性的能力。

比如在支付寶的場景中,判斷一個用戶的消費偏好,或者這個人還款的信用,當用戶數據信息很豐富的時候,人工智能算法往往會得到很好的結果。但如果用戶背后沒有太豐富的信息——比如他只是偶爾的用支付寶轉過幾筆錢——如何得知這個人的特點呢?

圖數據比起以關系數據網為代表的表數據最鮮明的優越性在于,很多時候人、地點和事件的關聯性并不完全能以表的形式呈現,卻能用“節點”和“邊”這種更松散的形式記錄下來,這些隱形的關聯信息單獨來看并不能解釋某個關聯用戶的行為,但這張網聚集起來卻能形成一些社區發現。也因此,當這張關系網絡中納入的用戶越多,這種四兩撥千斤的能力也愈強。

“圖是一種最為靈活的連接方式,讓實體之間可以不受限制地連接”,螞蟻技術研究院院長陳文光表示,這同時也賦予了算法更多的“可解釋性”。

人跟隨著算法生活的蜜月正在過去,算法對人的過度入侵開始被提到高位審視。在這個過程中,算法已經不可逆的搭建起一套社會需要依附其上的運轉方式,于是當代碼替人做了決定——比如你的轉賬額度,或者為什么一直收到某一類的廣告——這個決定是如何做出的,需要可以被清晰追溯。

陳文光以社區發現舉了個例子:

“比如在某個社區里已知有一些“壞人’,然后我們發現某個人和這些鄰居的鏈接比較緊密,那這個人是”壞人”的概率也會更大。”

這是最基本的思路。一個人的節點特征是由他鄰居的節點特征通過某種運算,結合和他過去的特征合在一起型成的。能夠影響我們對一個人的判斷,形成他新的特征,這與之前純粹將數據放進神經網絡,通過統計學得到一個完全沒法解釋的分類答案不一樣。”

相比于表數據來說,圖計算帶有一個更清晰的逐層推導結構,這個結構本身就意味著一定的可解釋性。

這種把薄數據“變厚”的能力以及推理過程的可解釋性,已經開始和螞蟻集團開源的可信隱私計算框架“隱語”一起,在支付寶反詐風控的系統中形成合力。目前支付寶可在0.01秒內完成對一筆交易的風險判定,并且在2021年的全年統計中資損率低于億分之0.98——即平臺上1億人民幣的資金流轉中,出于欺詐行為的不到1元。

開始跨入現實之門

在這位從學界跨入產界的螞蟻智庫首席看來,圖計算是一個處在數據和人工智能發展交匯處的概念。技術沉淀多時,亟需的是場景。

陳文光是以費馬科技創始人的身份加入螞蟻集團的,再那之前的十幾年一直在清華大學計算機系擔任教授,這番從學界投身產界,最終進入大公司的姿態本身也像是圖計算作為一個前沿領域發展的某種映射。

費馬科技在2016年5月創立,站在臺前的是包括洪春濤和朱曉偉在內的幾位清華計算機系博士,陳文光則落于幕后擔任首席科學家。公司的業務方向是立足于高性能的分布式圖計算以進行大規模關系網絡分析,為銀行等客戶提供反欺詐能力和社交分析能力,以及整體的金融大數據解決方案。

2016年之前,陳文光在清華大學主導的圖計算研究已經有了成果,團隊自研的圖計算系統比當時開源軟件中常用的圖計算框架GraphX要快100倍左右,而所需的內存只是后者的10%。把自己培養的博士生聚攏起來,繼續優化自研的圖計算系統,并為它找到使用場景,這是費馬科技成立的初衷。

費馬的暢想卡在規模化這最后一步。

“圖計算要想真正成長起來,第一步要解決:做出來;第二步:有人用;第三步:大規模使用。而當時困擾我的問題,怎么實現從有人用到大規模使用。”

幾年時間里費馬科技確實拿到了一些標桿客戶,比如京東金融和國家電網,但整體的商業化路徑并不清晰,這也不是技術出身的團隊所擅長的事。

在本屆WAIC的一場論壇上,洪春濤與陳文光同席出現在最后的圓桌環節。洪春濤曾是費馬科技的CEO,現在他的身份是螞蟻集團圖數據庫負責人。2020年,洪春濤曾經表示圖計算未來的市場規模會達到千億,并且“已到爆發前夜”,但2021年初的多項工商變更則表明,費馬科技決定在這黎明前的最后一夜擁抱螞蟻集團。

原費馬科技高管,左三為陳文光,右二為洪春濤圖源:搜狐

“到2020年的時候,我們發現了自身的局限性。費馬團隊總體上技術上是很強,但是管理和市場銷售,特別是后者我們相對比較弱的”,陳文光在今年6月的一次采訪中對極客公園表示。

2020年,螞蟻集團宣布了陳文光的加入。兩年之后,后者開始擔任螞蟻技術研究院院長。

螞蟻集團對于圖計算的布局很早,從2015年開始就自主研發分布式圖數據庫、流式圖計算等圖相關技術,2016年發布自研分布式圖數據庫。而手握支付寶,意味著螞蟻天然有了全球領先的圖計算的場景需求,這是純粹從技術出發的圖計算團隊都不具備的。

從陳文光的表述中,費馬科技并入螞蟻集團并不是商業場上那種千篇一律的無奈收購,而是一個技術找到場景的積極故事。螞蟻集團,或者字節跳動這些掌握大量數據的科技公司正擁有這片土壤。只有在最大限度的接觸到真實數據之后,圖計算的成長才會開始加速,直到最終從象牙塔中走出,找到現實世界中的位置。

除了螞蟻和字節跳動,國內的互聯網巨頭幾乎無一例外的都已經開始圖計算和圖數據庫的相關布局。

華為云的圖引擎服務GES是國內首個商用的、擁有自主知識產權的國產分布式原生圖引擎。早在2019年華為云推出一站式AI開發平臺ModelArts,聯合了GES圖引擎打造的“圖神經網絡”,自此圖深度學習開始落地。

2020年6月1日,騰訊云正式發布分布式圖數據庫產品騰訊云數圖TGDB,能夠實現萬億級關聯關系數據實時查詢,高效治理異構數據,支持實時圖計算。

而早在2018年,百度已宣布開源大規模圖數據庫HugeGraph,這也是國內第一家開源的圖數據庫。今年5月百度將HugeGraph捐贈給了世界上最大的開源軟件基金會Apache,成為后者的孵化項目之一。孵化成功的HugeGraph有望成為全球首個Apache軟件基金會的圖數據庫頂級項目。

這一切跡象都在表明,圖計算正在被積極的潮水推動著。人類苦尋“幻視”一樣理想的人工智能,或許我們已經找到額頭上的那顆寶石了。

參考資料:

《圖論及相關歷史》

《人人都在談的圖數據庫到底是個啥?》

《圖計算,下一個科技前沿?》

Tags:Graph人工智能AICGraph幣是什么幣人工智能技術應用學人工智能后悔死了人工智能考研考哪些科目AIC價格AIC幣

酷幣
“星鏈”影響烏軍行動,美國無法割舍,馬斯克該何去何從?_馬斯克

自俄烏沖突以來,馬斯克的“星鏈”衛星為烏軍提供了通信支持,而美國更需要“星鏈”技術為其提供情報服務,一旦失去“星鏈”,烏克蘭和美國都會有損失,將直接影響俄烏戰局,但由于“星鏈”太燒錢.

1900/1/1 0:00:00
干貨!一文看懂CT掃描儀行業發展趨勢:國產替代空間廣闊_CAG

原文標題:2021年中國CT掃描儀行業供需現狀及競爭格局分析,國產替代空間廣闊「圖」 一、CT掃描儀行業概況 1、分類 CT掃描儀將X射線成像與斷層掃描技術相結合,生成人體的橫斷面圖像.

1900/1/1 0:00:00
大眾小面包,你買我不推薦!_BUZZ

情懷?恕我不懂。 話說,大眾ID.Buzz早在年初的時候就已經正式發布,都大半年了,怎么突然說這個車呢?咱又買不到。 誒!話說早了噢,這幾天它突然出現在了國內!毫無征兆的.

1900/1/1 0:00:00
世界杯臨近,粉絲代幣還有哪些機會?|DeFi之道直播回顧_JUV

11月21日,四年一度的足球世界杯將正式開賽,作為世界上競技水平、知名度最高的足球比賽,它對Crypto行業的影響越來越深遠.

1900/1/1 0:00:00
最活躍公鏈遭黑客盜走8.5億美元,是時候談談加密貨幣的安全策略_加密貨幣

編者按據媒體報道,北京時間10月7日,全球最活躍的公鏈之一的BNBChain被黑客攻擊,黑客利用跨鏈橋漏洞分兩次共獲取200萬枚BNB,價值約5.66億美元.

1900/1/1 0:00:00
極致輕量化的Alpine A110 R登場,為了減重連后車窗都不省了_ALPINE

對于性能車來說,極致輕量化絕對是不變的真理,為了貫徹這個理念,Alpine在此前推出了全新的A110R車型.

1900/1/1 0:00:00
ads