撰文:GuidoAppenzeller、MattBornstein和MartinCasado
來源:a16z
圖片來源:由無界AI工具生成
生成式人工智能的熱潮是以計算為基礎的。它的一個特性是,增加更多的計算量會直接導致更好的產品。通常情況下,研發投資與產品的價值更直接相關,而且這種關系明顯是次線性的。但目前人工智能的情況并非如此,今天推動該行業發展的主要因素僅僅是訓練和推理的成本。
雖然我們不知道真實的數字,但我們從可靠的消息來源聽說,算力的供應十分緊張,需求超過了10倍!所以我們認為,現在,以最低的總成本獲得計算資源已經成為人工智能公司成功的決定因素。
事實上,我們已經看到許多公司在計算資源上花費的資金占其總籌資額的80%以上。
在這篇文章中,我們試圖分解AI公司的成本因素。絕對數字當然會隨著時間的推移而變化,但我們不然我AI公司受計算資源的訪問限制將立即緩解。因此,希望這是一個有助于思考的框架。
為什么AI模型的計算成本如此之高?
生成式人工智能模型種類繁多,推理和訓練成本取決于模型的大小和類型。幸運的是,今天最流行的模型大多是基于Transformer的架構,其中包括熱門的大型語言模型,如GPT-3、GPT-J或BERT。雖然transformer的推理和學習操作的確切數量是特定于模型的,但有一個相當準確的經驗法則僅取決于參數的數量模型以及輸入和輸出Token的數量。
Token基本上是幾個字符的短序列。它們對應于單詞或單詞的一部分。獲得對token的直覺的最好方法是使用公開的在線標記器嘗試標記化。對于GPT-3,一個token的平均長度是4個字符。
Transformer的經驗法則是,對于一個具有p個參數的輸入和一個長度為n個token的輸出序列的模型,前向通過大約需要2*n*p浮點運算1。對同一模型的訓練,每個token大約需要6*p浮點運算。你可以通過將其乘以訓練數據中的token量來估算總的訓練成本。
Transformer的內存需求也取決于模型大小。對于推理,我們需要p個模型參數來適應內存。對于學習,我們需要在前向和后向傳遞之間存儲每個參數的額外中間值。假設我們使用32位浮點數,這就是每個參數需要額外的8個字節。對于訓練一個1750億個參數的模型,我們需要在內存中保留超過一兆字節的數據--這超過了目前存在的任何GPU,需要我們將模型分割到不同的卡上。推理和訓練的內存需求可以通過使用更短長度的浮點值來優化,16位已成為普遍現象,預計在不久的將來會有8位。
由a16z支持的Rewind推出一款應用使用戶可根據網頁瀏覽歷史進行提問:金色財經報道,由Andreessen Horowitz (a16z) 支持的個人數據記錄初創公司Rewind推出了一款iPhone應用程序,它能私下記錄用戶在Safari上的活動,以便用戶日后根據網頁瀏覽歷史提問。默認情況下,當用戶在隱身模式下瀏覽時,該應用不會記錄任何內容。[2023/7/28 16:04:57]
上表是幾個流行模型的規模和計算成本。GPT-3有大約1750億個參數,對應1,024個token的輸入和輸出,計算成本大約為350萬億次浮點運算。訓練一個像GPT-3這樣的模型需要大約3.14*10^23的浮點運算。其他模型如Meta的LLaMA有更高的計算要求。訓練這樣的模型是人類迄今為止承擔的計算量較大的任務之一。
總結一下:人工智能基礎設施之所以昂貴,是因為底層的算法問題在計算上極其困難。與用GPT-3生成一個單詞的復雜性相比,對一個有一百萬個條目的數據庫表進行排序的算法復雜性是微不足道的。這意味著你要選擇能夠解決你的用例的最小模型。
好消息是,對于transformer,我們可以很容易地估計出一個特定大小的模型將消耗多少計算和內存。因此,選擇合適的硬件成為下一個考慮因素。
GPU的時間和成本爭論
計算復雜性是如何轉化為時間的?一個處理器核心通常可以在每個周期執行1-2條指令,由于DennardScaling的結束,在過去的15年中,處理器的時鐘速率一直穩定在3GHz左右。在不利用任何并行架構的情況下,執行單個GPT-3推理操作將需要350TFLOPS/(3GHz*1FLOP)或116,000秒,或32小時。這是非常不切實際的;相反,我們需要專門的芯片來加速這項任務。
實際上,今天所有的AI模型都在使用大量專用內核的卡上運行。例如,英偉達A100圖形處理器有512個"張量核心",可以在一個周期內完成4×4矩陣乘法。人工智能加速器卡通常被稱為GPU,因為該架構最初是為桌面游戲開發的。在未來,我們預計人工智能將日益成為一個獨特的產品系列。
A100的標稱性能為312TFLOPS,理論上可以將GPT-3的推理時間縮短到1秒左右。然然而,由于多種原因,這是一個過于簡化的計算。首先,對于大多數用例來說,瓶頸不是GPU的計算能力,而是將數據從專門的圖形存儲器送到張量核心的能力。其次,1750億個權重將占用700GB,無法放入任何GPU的圖形存儲器中。需要使用分區和權重流等技術。第三,有一些優化,正在被用來加速計算。但是,總的來說,上面的數字讓我們對當今LLM的總體計算成本有了直觀的了解。
知情人士:a16z加密基金今年上半年已蒸發約40%:10月26日消息,知情人士表示,a16z加密基金在今年上半年蒸發了約40%的價值,其中今年前六個月在Coinbase的剩余股份中就損失了29億美元,目前其正在進行調整,今年第三季度宣布了9筆加密初創公司投資,低于去年第四季度26筆的高點。(華爾街日報)[2022/10/26 11:44:55]
訓練一個transformer模型每個標記花費的時間大約是進行推理的三倍。然而,考慮到訓練數據集比推理提示大3億倍,訓練需要10億倍的時間。在單個GPU上,訓練需要數十年;在實踐中,這是在專用數據中心的大型計算集群上進行的,或者更有可能是在云端。訓練也比推理更難并行化,因為更新的權重必須在節點之間進行交換。GPU之間的內存和帶寬往往成為一個更重要的因素,高速互連和專用結構是很常見的。對于訓練非常大的模型,創建一個合適的網絡設置可能是首要挑戰。展望未來,AI加速器將在卡上甚至芯片上具備聯網能力。
那么,這種計算復雜性如何轉化為成本?正如我們在上面看到的,一個GPT-3推理,在A100上大約需要1秒鐘,對于1000個token的原始計算成本在0.0002美元到0.0014美元之間。這是一個非常低的價格點,使得大多數基于文本的人工智能用例在經濟上是可行的。
另一方面,訓練GPT-3則要昂貴得多。在上述速率下,再次僅計算3.14*10^23FLOPS的計算成本,我們可以估計到A100卡上的單次訓練費用為56萬美元。在實踐中,對于訓練,我們不會在GPU上獲得近100%的效率;但是我們也可以使用優化來減少訓練時間。其他對GPT-3訓練成本的估計從50萬美元到460萬美元不等,取決于硬件假設。請注意,這是一次運行的成本,而不是整體成本。可能需要多次運行,而云供應商將希望得到長期的承諾。訓練頂級的模型仍然很昂貴,但對于資金充足的初創公司來說是可以承受的。
總而言之,當今的生成式人工智能需要對人工智能基礎設施進行大量投資。沒有理由相信這會在不久的將來發生改變。訓練像GPT-3這樣的模型是人類有史以來計算量最大的任務之一。雖然GPU變得越來越快,而且我們找到了優化訓練的方法,但人工智能的快速擴張抵消了這兩種影響。
AI基礎設施的考慮因素
至此,我們已嘗試讓您對進行AI模型訓練和推理所需的規模以及驅動它們的底層參數有了一定的了解。在這種背景下,我們現在想就如何決定使用哪種AI基礎設施提供一些實用指南。
a16z Crypto負責人提醒欺詐風險:有人在Instagram冒充我:金色財經報道,a16z Crypto負責人 Chris Dixon 在其官方社交媒體賬戶上發布欺詐風險提示,他表示自己不使用任何 Instagram 消息,但現在發現有人冒充他實施欺詐,因此提醒用戶注意風險。Chris Dixon 創立并領導 a16z Crypto,該機構剛剛完成了第四只基金 Crypto Fund 4募資,規模高達45億美元。[2022/6/3 3:59:57]
外部與內部基礎設施
GPU很酷。許多工程師和有工程意識的創始人都偏向于配置自己的人工智能硬件,這不僅是因為它可以對模型訓練進行細粒度控制,還因為利用大量計算能力會帶來一些樂趣。
然而,現實是,許多初創公司--尤其是應用程序公司--不需要在第一天就建立自己的人工智能基礎設施。相反,像OpenAI或HuggingFace和Replicate這樣的托管模型服務使創始人能夠迅速搜索產品與市場的契合度,而不需要管理底層基礎設施或模型。
這些服務已經變得如此之好,以至于許多公司可以直接依附于它們。開發人員可以通過提示工程和高階微調抽象實現對模型性能的有意義的控制。這些服務的定價是基于消費的,所以它也經常比運行單獨的基礎設施更便宜。我們已經看到一些應用程序公司產生了超過5000萬美元的ARR,估值超過10億美元,它們在后臺運行托管模型服務。
另一方面,一些初創公司--特別是那些訓練新的基礎模型或建立垂直整合的人工智能應用--無法避免直接在GPU上運行自己的模型。要么是因為模型實際上是產品并且團隊正在尋找“模型-市場契合度”,要么是因為需要對訓練和/或推理進行細粒度控制才能實現某些功能或大規模降低邊際成本。無論哪種方式,管理基礎架構都可以成為競爭優勢的來源。
云與數據中心的構建
在大多數情況下,云是你的AI基礎設施的正確位置。對大多數初創企業和大公司來說,較少的前期成本,擴大和縮小規模的能力,區域可用性,以及較少因建立自己的數據中心而分心,是具有吸引力的。
但這一規則也有幾個例外:
如果你的運營規模非常大,運行你自己的數據中心可能會變得更有成本效益。確切的價位根據地理位置和設置而不同,但通常需要每年超過5000萬美元的基礎設施支出。
即將離職的a16z合伙人Katie Haun尋求為加密投資基金籌集9億美元:1月7日消息,據英國《金融時報》報道,即將成為Andreesen Horowtiz(a16z)前合伙人的Katie Haun(Kathryn Haun)正尋求在離職后為兩只加密投資基金籌集至少9億美元的資金。
知情人士稱,Haun的目標是為一只針對加密初創公司的早期投資基金籌集3億美元,為一只專注于大型公司和數字代幣的基金籌集6億美元。
在上個月宣布將離開a16z后,Haun表示將創辦自己的風險投資公司“KRH”。2022年1月,NFT市場Opensea以133億美元投后估值完成3億美元融資,KRH參投。(CoinDesk)[2022/1/7 8:32:41]
你需要非常具體的硬件,而這些硬件你無法從云供應商那里獲得。例如,沒有廣泛使用的GPU類型,以及不尋常的內存、存儲或網絡要求。
出于地緣的考慮,你無法找到一個可以接受的云。
如果你確實想建立自己的數據中心,對于自己的設置,已經有了全面的GPU價格/性能分析。除了卡本身的成本和性能外,硬件的選擇還取決于電源、空間和冷卻。例如,兩塊RTX3080Ti卡加在一起的原始計算能力與A100相似,但各自的功耗是700W與300W。在三年的生命周期內,以0.10美元/千瓦時的市場價格計算,3500千瓦時的功率差異使RTX3080Ti的成本增加了近2倍。
綜上所述,我們預計絕大部分初創企業都會使用云計算。
比較云服務提供商
亞馬遜網絡服務、微軟Azure和谷歌云平臺都提供GPU實例,但也出現了新的供應商,專門專注于人工智能工作負載。下面是我們看到的許多創始人用來選擇云供應商的框架:
價格:下表顯示了截至2023年4月7日一些主要和較小的專業云的價格。該數據僅供參考,因為實例在網絡帶寬、數據出口成本、CPU和網絡的額外成本、可用折扣和其他因素方面有很大的不同。
特定硬件的計算能力是一種商品。直截了當地講,我們會期望價格相當統一,但事實并非如此。雖然云計算之間存在著實質性的功能差異,但它們不足以解釋按需NVIDIAA100的定價在供應商之間相差近4倍。
區塊鏈公司Mediachain獲A16z領投150萬美元種子輪:總部位于紐約的區塊鏈創業公司Mediachain,已獲得了重量級VC公司安德森·霍洛維茨基金(Andreessen Horowitz)以及合廣風險投資公司(Union Square Ventures.)的注資。這兩家公司今日宣布他們已領投了Mediachain的150萬美元種子輪融資。其他跟投方包括RRE Ventures、數字貨幣集團(DGC)以及LDV Capital ,此外,天使投資人Alexis Ohanian、William Mougayar、Kanyi Maqubela、David Lee、Mathieu Drouin以及Brian Message也參與了此輪融資。這筆融資距Mediachain推出核心產品已過去了四個月,該元數據協議能使內容創造者為他們的作品打上時間戳,并放到比特幣區塊鏈上,同時它還使用了星級文件系統(IPFS,一種超媒體協議)。[2018/3/2]
在價格范圍的頂端,大型公共云根據品牌聲譽、經過驗證的可靠性以及管理各種工作負載的需要收取溢價。較小的專業AI提供商通過運行專用數據中心或套利其他云來提供較低的價格。
實際上,大多數大型買家直接與云供應商談判價格,通常承諾一些最低支出要求以及最低時間承諾。談判之后,云計算之間的價格差異會有所縮小,但我們看到上表中的排名保持相對穩定。同樣重要的是要注意,小公司可以從專業云中獲得積極的定價,而不需要大量的支出承諾。
可用性:最強大的GPU在過去12個多月里一直供不應求。
考慮到前三大云計算供應商的巨大購買力和資源池,認它們擁有最佳可用性是合乎邏輯的。但是,有點令人驚訝的是,許多初創企業并沒有發現這是真的。大的云服務商有大量的硬件,但也有大量的客戶需求需要滿足--例如,Azure是ChatGPT的主要主機--并且不斷增加/釋放容量以滿足需求。同時,Nvidia已經承諾在整個行業廣泛提供硬件,包括為新的專業供應商分配。。
因此,許多初創公司在較小的云計算供應商那里發現了更多可用的芯片,包括尖端的NvidiaH100s。如果你愿意與較新的基礎設施公司合作,你可能會減少硬件的等待時間,并可能在這個過程中節省資金。
計算交付模式:今天的大型云只提供帶有專用GPU的實例,原因是GPU虛擬化仍是一個未解決的問題。專業的人工智能云提供其他模式,如容器或批處理作業,可以處理單個任務,而不產生實例的啟動和拆卸成本。如果你對這種模式感到滿意,它可以大大降低成本。
網絡互連:具體到培訓方面,網絡帶寬是選擇供應商的一個主要因素。訓練某些大型模型時,需要在節點之間使用專用網絡的集群,如NVLink。對于圖像生成,出口流量費用也是一個主要的成本驅動因素。
客戶支持:大型云供應商為數以千計的產品SKU中的大量客戶提供服務。除非你是一個大客戶,否則很難得到客戶支持的關注,或得到問題解決。另一方面,許多專門的人工智能云,甚至為小客戶提供快速和響應的支持。這部分是因為他們的運營規模較小,但也因為他們的工作負載更加同質化,所以他們更有動力去關注人工智能的具體功能和錯誤。
比較GPU
在其他條件相同的情況下,最高端的GPU在幾乎所有的工作負載上都會表現最好。然而,正如你在下面的表格中所看到的,最好的硬件也是相當昂貴的。為你的特定應用選擇正確類型的GPU可以大大降低成本,并可能在可行和不可行的商業模式之間產生差異。
決定在列表中走多遠——即為您的應用程序確定最具成本效益的GPU選擇——主要是一個技術決策,超出了本文的范圍。但我們將在下面分享一些我們認為最重要的選擇標準:
訓練與推理:正如我們在上面第一節中所看到的,訓練一個Transformer模型需要我們存儲8個字節的數據用于訓練,此外還有模型權重。這意味著一個典型的擁有12GB內存的高端消費級GPU幾乎不能用來訓練一個40億參數的模型。在實踐中,訓練大型模型是在機器集群上進行的,每臺服務器最好有許多GPU,大量的VRAM,以及服務器之間的高帶寬連接。
具體來說,許多模型在英偉達H100上的成本效益最高,但就目前而言,它很難找到,通常需要一年以上的長期承諾。而英偉達A100運行著大多數模型訓練;它更容易找到,但對于大型集群,可能也需要長期承諾。
內存要求:大型LLM的參數數量太多,無法裝入任何卡中。它們需要被分割到多個卡中,并需要一個類似于訓練的設置。換句話說,即使是LLM推理,您也可能需要H100或A100。但是較小的模型需要更少的VRAM。雖然A100仍然很受歡迎,但我們已經看到初創公司使用A10、A40、A4000、A5000和A6000,甚至是RTX卡。
硬件支持:雖然與我們交談過的公司中的絕大多數工作負載都在英偉達上運行,但也有一些公司開始嘗試使用其他供應商。最常見的是谷歌的TPU,而英特爾的Gaudi2似乎也得到了一些關注。這些供應商所面臨的挑戰是,你的模型的性能往往高度依賴于這些芯片的軟件優化的可用性。你可能必須做一個PoC,以了解性能。
延遲要求:一般來說,對延遲不太敏感的工作負載可以使用功率較小的GPU。這可以減少3-4倍的計算成本。另一方面,面向用戶的應用程序往往需要高端卡來提供有吸引力的實時用戶體驗。優化模型往往是必要的,以使成本達到一個可控的范圍。
峰值:生成式人工智能公司經常看到需求的急劇上升,因為這項技術是如此新穎且令人興奮。在新產品發布的基礎上,請求量在一天內增加10倍,或每周持續增長50%,這是很正常的。在低端GPU上處理這些峰值通常更容易,因為更多的計算節點可能會按需提供。如果這種流量來自參與度較低或留存率較低的用戶,那么以犧牲性能為代價,以較低成本的資源為此類流量提供服務通常也是有意義的。
優化和調度模型
軟件優化可以極大地影響模型的運行時間-10倍的收益并不罕見。然而,你需要確定哪些方法對你的特定模型和系統最有效。
有些技術對相當廣泛的模型有效。使用較短的浮點表示或量化實現的加速通常與位數的減少成線性關系。這有時需要修改模型,但現在有越來越多的技術可以實現混合或更短精度的自動工作。修剪神經網絡通過忽略低值的權重來減少權重的數量。結合高效的稀疏矩陣乘法,這可以在現代GPU上實現大幅提速。此外,另一組優化技術解決了內存帶寬瓶頸。
其他的優化是高度針對模型的。例如,StableDiffusion在推理所需的VRAM量方面取得了重大進展。還有一類優化是針對硬件的。英偉達的TensorML包括一些優化,但只能在英偉達的硬件上運行。最后,但同樣重要的是,人工智能任務的調度可以創造巨大的性能瓶頸或改進。將模型分配到GPU上,以盡量減少權重的交換,如果有多個GPU可用,則為任務挑選最佳GPU,以及通過提前批處理工作負載來盡量減少停機時間,這些都是常見的技術。
最后,模型優化仍然是一門黑魔法,我們接觸過的大多數初創公司都與第三方合作,以幫助解決其中一些軟件方面的問題。通常,這些不是傳統的MLops供應商,而是專門針對特定生成模型進行優化的公司。
人工智能基礎設施成本將如何演變?
在過去的幾年里,我們看到模型參數和GPU計算能力都呈指數級增長。目前還不清楚這種趨勢是否會繼續。
今天,人們普遍認為,在最佳參數數量和訓練數據集的大小之間存在著一種關系。今天最好的LLM是在CommonCrawl上訓練的。訓練語料庫還包括維基百科和一個圖書集,盡管兩者都要小得多。其他想法,如轉錄視頻或音頻內容,也被提出來,但這些都沒有接近的規模。目前還不清楚我們是否能獲得一個比已經使用的數據集大10倍的非合成訓練數據集。
GPU性能將繼續提高,但速度也會變慢。摩爾定律仍然完好無損,允許更多的晶體管和更多的內核,但功率和I/O正在成為限制因素。此外,許多用于優化的低垂果實已經被摘下。
然而,這并不意味著我們預計對計算容量的需求不會增加。即使模型和訓練集的增長放緩,人工智能行業的增長和人工智能開發者數量的增加將推動對更多更快的GPU的需求。在模型的開發階段,很大一部分GPU容量被開發人員用于測試,而這種需求隨著人數的增加而線性增長。沒有跡象表明,我們今天的GPU短缺將在不久的將來減輕。
這種持續的人工智能基礎設施的高成本是否會形成護城河,使新進入者無法追趕資金充足的在位者?我們還不知道這個問題的答案。今天,LLM的訓練成本可能看起來像護城河,但Alpaca或StableDiffusion等開源模型表明這些市場仍處于早期階段并且可能會迅速變化。隨著時間的推移,新興AI軟件堆棧的成本結構可能開始看起來更像傳統軟件行業。
最終,這將是一件好事:歷史表明,這會帶來充滿活力的生態系統,并為創業者提供快速創新和大量機會。
感謝MoinNadeem和ShangdaXu在寫作過程中的投入和指導。
來源|BankofCanadaStaffWorkingPaper作者|?JonathanChiu,EmreOzdenoren.
1900/1/1 0:00:00來源:量子位 所有人都能上手微軟Bing了!無需任何等待。只需注冊一個賬戶,首頁即可體驗。 更關鍵的是,還有一大堆堪稱“家底”的新功能來襲!支持100種語言多模態輸出、持續聊天且記錄可隨時導出、.
1900/1/1 0:00:00引言 GrayscaleEthereumTrust(ETHE)作為最大的美股上市交易的以太坊產品,持倉量高達?300?萬個?ETH,然而目前其二級市場交易價格對比凈值存在近?50%?左右的折價.
1900/1/1 0:00:00原文標題:《DeepDAOResearchpresents:HuntingVoteMiners》原文作者:DEEPDAO.IO?原文編譯:Kxp,BlockBeats最近.
1900/1/1 0:00:00原文來源于Dappradar,白澤研究院編譯。因篇幅原因略有內容刪改,建議感興趣的讀者閱讀原文:https://dappradar.com/blog/yuga-labs-from-nothing.
1900/1/1 0:00:00原文作者:Nancy,PANews加密行情動蕩之際,成立于?2015?年的加密交易所?Bittrex?宣布于?5?月?9?日在美國特拉華州申請破產,引發了市場恐慌和猜測.
1900/1/1 0:00:00