一、前言
固然運維這個職能范疇對于絕大多數人來說認知模糊,特別是在分布式存儲領域,“運維”常常和“機房”“IDC”等名詞相伴,導致很多異業者對于運維的了解停留在物理層面,以搬運機器、上下架服務器、管理網電等為標桿,好似網管般維護機器運行。事實上運維工程師從工作方式上分為多類,如:運維工程師、運維開發工程師、運維平臺研發工程師、數據庫工程師、數據庫研發工程師等,體現運維能力更多于針對業務的定制化原生工具開發的方面。
運維工程師負責維護并確保整個服務的高可用性,同時不斷優化系統架構提升部署效率、優化資源利用率提高整體的ROI。
伴隨著Filecoin的主網臨近,“運維”重要性的共識在業界基本達成一致,隨著行業布道信息量和內容程度的升級,越來越多的投資參與者也步入理性分析,無論是從Filecoin項目的階段性動態,亦或是對挖礦服務商的甄選,在主網上線的黎明前夕,現階段最重要的運維工程師們,確定準備好了么?
二、初識運維
1.1運維是什么
運維普遍是指互聯網運維,是和研發、測試、系統管理并頭的4大技術部門。
細分來說運維的技術方向包含服務監控技術、服務故障管理、服務容量管理、服務性能優化、服務全局流量調度、服務任務調度、服務安全保障、數據傳輸技術、服務自動發布部署、服務集群管理、服務成本優化、數據庫管理、平臺化的開發、分布式存儲平臺的開發優化等等,分布式是其中很明確的一個技術要領。
同時在運維工作中,運維人員要照顧到Web服務器、監控、自動部署、配置管理、負載均衡、傳輸工具、備份工具、數據庫、分布式平臺、分布式數據庫、容器、虛擬化、安全、問題追查等大而全、小而細的事項。
數據:過去一周NFT交易額超1.13億美元,環比下降23%:7月23日消息,CryptoSlam數據顯示,過去一周,大約有464,900名買家在NFT上花費了超過1.135億美元,NFT交易額較上周下降23%;全網NFT交易量約220萬筆,環比下降1%;其中以太坊鏈交易額達7270萬美元,排名第一,比特幣鏈以900萬美元交易量排名第二;交易額排名前五的分別是Gods Unchained Cards(470萬美元)、DMarket(450萬美元)、BAYC(420萬美元)、CryptoPunks(410萬美元)以及Uncategorized Ordinals(320萬美元)。[2023/7/23 15:52:36]
運維工程師通過軟件或命令行實時與第三方系統做數據同步,實現可視化監控平臺與各系統的無縫對接,確保系統數據的精準與穩定,及時處理告警信息,提高動環監控管理效率。
動環監控自2008年出現至今已有十二年的時間,主要包括以下模塊:
配電系統:UPS及直流電源、自備發電機、配電柜、防雷檢測等。
環境系統:空調、溫濕度監測、漏水監測、氣體監測等。
消防系統:煙感、溫感、早期預警系統、其它消防設備等。
保安系統:圖像監控、門禁監控、紅外探測、玻璃破碎探測等。
IT網管監控:網絡設備、PC服務器、操作系統、數據庫及應用等。
除此之外,運維工程師們還需要關注:
聯動控制:電子開關、聯動錄像、數據存儲、運動操控等。
Bitfinex在拉丁美洲推出P2P加密交易平臺:6月28日消息,根據官方公告,加密交易所Bitfinex在拉丁美洲三個國家推出P2P加密交易平臺,分別是阿根廷、委內瑞拉以及哥倫比亞,用戶可以買賣BTC、ETH、USDT、EURT和Tether Gold。
Bitfinex首席技術官Paolo Ardoino在聲明中表示:“通過為P2P代幣交易提供可靠且高效的平臺,我們使客戶能夠根據他們的需求和偏好以最大程度的便利方式參與市場。”[2023/6/28 22:04:00]
事件記錄:操作記錄、狀態記錄、異常記錄、確認記錄等。
異常報警:聲光報警、語音廣播、電話報警、短信報警、郵件通知等。
運維人的一天從上班打卡開始到下班打卡結束,忙忙碌碌周而復始,“007”的工作模式屢見不鮮。
1.2運維發展史
運維要做的是將系統運行存在的變量做到可控,但運維環境的異構和復雜化導致日常運維工作需要付出的人力、時間成本越來越高。
從初級運維發展到最高新的智能化運維,主要是四個階段的過渡:
腳本時代
工具時代
自動化時代
智能化時代
兩年前,“智能化運維”開始被大家廣泛關注,隨著大數據分析、APM、智能異常檢測、機器學習等技術的興起和逐漸成熟,運維需求也逐漸向自動化和智能化過渡。
三、自動化的意義
2.1自動化的運維方式
自動化是智能化的前提。自動化的運維方式解決硬件和網絡的自動管理、虛擬機的自動管理、操作系統和軟件的自動化安裝、配置,我們看到了很多“管理”,自動化的意義一方面是提高效率、優化成本、優化資源,更好的做一些彈性,把資源釋放出來去干點別的;另一方面更是將運維結果標準化可復制。
Jim Cramer:我們正處于牛市并“逢低買入”:金色財經報道,CNBC節目主持人Jim Cramer稱我們正處于牛市并“逢低買入”。[2023/2/1 11:39:42]
當然,從工具化到自動化的過程并沒有那么的容易,對整個行業來講,目前更多的工作是在探尋自動化,深耕分布式存儲多年和Filecoin源代碼近兩年的IPFS原力區作為為數不多的實現自動化運維服務的提供商,在此致敬為行業發展服務努力的技術大佬們。
說回運維,在Filecoin這個領域,標準的運維軟件研發和其他相對傳統的運維軟件不太一樣。比如說阿里從工具化到自動化這個過程中,筆者認為工具化挑戰相對小,即使傳統的運維人員也很容易寫一些工具,比如用Python去寫更多的工具體系。但是如果開發者的工具最終要變成能夠到自動化這個階段,就意味著對工具的要求會越來越高,比如說工具的質量,如果開發者寫出來的工具經常有問題,規模一大就扛不住壓力,這時從人性的角度來講,開發者將會慢慢失去信任感,最后會很難完成這個過程。
當自動化運維實現監控、問題診斷、可視化等,運維人只留下一部分手工任務包括容災切換、應急操作、應用部署和起停等,這樣留下的大量精力就可以傾注于運維開發,給用戶帶來更好的服務體驗。
2.2實現自動化的方式。
一套完善的綜合動環監控系統可以對分布的各個獨立的動力設備、機房環境、安保監控等進行實時采集、實時監視系統和設備、安保的運行狀態,記錄和處理相關數據;及時偵測故障,并作必要的遙控遙調操作,適時通知駐場和遠程運維處理;實現機房的少人甚至無人值守,以及電源、空調的集中監控維護管理,提高供電系統的可靠性和通信設備的安全,為機房的管理自動化甚至智能化和決策科學化提供有力的技術支持。
知情人士:FTX需要40億美元才能保持償付能力:金色財經報道,據一位知情人士透露,FTX需要40億美元才能保持償付能力,并試圖以債務、股權或兩者結合的形式籌集救援資金。
此前消息,FTX首席執行官Sam Bankman-Fried(SBF)向投資者表示,FTX面臨高達80億美元的資金缺口,正嘗試以債務、股權或二者結合的方式籌集資金。此外,SBF承認FTX存在嚴重的財務漏洞,稱若無資金注入,FTX將申請破產。[2022/11/10 12:44:55]
但目前Filecoin領域業內真正的自動化運維的落地實踐占比不大,突出的、原生的定制運維系統更是少之又少,原力礦池占其一。
四、運維對Filecoin的重要性
3.1DEVOPS理念
3.1.1DevOps的工作原理
在DevOps模式下,開發團隊和運維團隊不再“孤立”,他們會在應用程序的整個生命周期內相互協作,開發出一系列不限于單一職能的技能。這些團隊會使用實踐經驗自動執行之前手動操作的緩慢流程,使用能夠幫助其快速可靠地操作和發展應用程序的技術體系和工具,進一步提高團隊的工作速度。
3.1.2DevOps的文化理念
向DevOps的過渡需要文化理念和心態上的轉變。DevOps的宗旨是消除兩個傳統上孤立的團隊之間的壁壘。他們力求頻繁溝通、提高效率,并改善客戶服務的質量,他們能夠完全掌控自己的服務,并且經常越過自己的既定角色或職能的傳統工作范疇,思考最終用戶的需求以及解決這些需求。
3.1.3DevOps實踐說明
Binance Card阿根廷增加了對Shiba Inu作為付款方式的支持:金色財經報道,據Watcher.Guru發推稱,Binance Card阿根廷增加了對Shiba Inu作為付款方式的支持。[2022/9/16 7:01:11]
有一些重要的實踐經驗能夠通過自動實施和簡化軟件開發與基礎設施管理流程,幫助組織加快創新速度,這些實踐經驗有大部分需要通過適當的工具來完成。其中一個基本實踐經驗就是要頻繁地進行小規模更新。
這是組織能為客戶快速提供創新的有效方式。與傳統發布實踐中偶爾的更新相比,這種更新通常更具漸進性質。頻繁的小規模更新能夠降低每次部署的風險。它們可以幫助團隊更快速地處理錯誤,因為團隊能夠確定引發錯誤的最近一次部署。雖然更新的節奏和規模可能有所不同,但使用DevOps模式的組織與使用傳統軟件部署實踐的組織相比,會更頻繁更新。
此外,組織還可以使用微服務架構來提升應用程序的靈活性,從而加快創新步伐。微服務架構將大型的復雜系統拆分為簡單的獨立項目。應用程序被拆分為許多單個組件,每個服務限定到單個目的或功能,這些服務既可以與其同級服務相互獨立運行,也可以與應用程序一起作為整體運行。這種架構降低了更新應用程序的協調開銷,當每個服務都與掌控各項服務的敏捷小型團隊一一對應時,組織就可以實現更快的發展。
但是,微服務與較高的發布頻率相結合會導致部署量大幅度增加,會帶來運維挑戰。因此,持續集成和持續交付等DevOps實踐經驗有助于解決這些問題,讓組織能夠以安全可靠的方式快速交付。與基礎設施即代碼和配置管理一樣,基礎設施自動化實踐經驗也有助于維持計算資源的彈性和對頻繁變更的適應性。此外,進行監控和記錄這一實踐經驗可幫助工程師追蹤應用程序和基礎設施的性能,以便他們快速應對出現的問題
3.2Filecoin運維與傳統運維的區別
Filecoin礦商的運維相較傳統互聯網運維難度呈數倍甚至數十倍提升,這主要受挖礦模式影響,比如當用整機串聯并行方式參與時,難度僅圍繞單一固件上的程序穩定性做工,但如果采用集群化或者分布式礦池的形式,集群間的各種請求調度和需求分鐘級部署的高標準對于運維工程師來說是一大挑戰。當Filecoin全網算力需求急劇提升時,集群化礦池模式的運維依然可以自如面對,而其他模式的運維就需要堆人堆資源來解決此類情況。
如果說Filecoin運維和傳統運維的具體不同,這里舉幾個方向的例子:
物理層:因類似阿里云的服務商,沒有標準化的服務支持,Filecoin云服務更需要注重底層架構,需要定制化的自建IDC,這遠遠不止硬件范疇。
SaSS:Filecoin軟件服務層也需要大量運營工具以支持數據可視化,這樣運維需要將開發平臺化,將工具可視化,這個過程中運維參與了大量的研發工作。
運維流程:傳統運維因參與個體少、邏輯簡單,多以Web形式訪問接口,做好端口監聽,反饋結果基本可控絕大多數變量,流程簡單;而Filecoin流程復雜,需要維護的模塊多、自動化難度高、監聽數據復雜且高頻,特別是懲罰機制,猶如達摩克立斯之劍,時刻告誡礦工們即使如此難度也不容出錯,客戶的數據存儲需求服務是Filecoin第一要務。
準確性:運維需要物理層監控,但對于Filecoin來說,監控出塊時間、出塊率、算力走勢、Lotus同步高度準確性等維度的重要程度不亞于物理層運行狀態。在傳統運維場景下,一個異常處理的要求可能在小時級,千萬級用戶的應用服務可能在分鐘級,但Filecoin網絡任何一個參數的異常都有可能對礦工造成巨額收益的損失及抵押的懲罰,易造成得不償失的情況。
除此之外,原力區運維要針對官方的Lotus代碼給予優化,考驗運維的開發能力、程序運行結果的穩定性,要實現健康狀態檢查、故障自動重啟、故障自愈等,這一切的一切為的是提升CPU使用率,從而提升算力、出塊量、收益,效率提升達2-3倍。
3.3項目發布的區別
3.3.1頻率
傳統互聯網項目發布的頻率固定、時間固定,如每周三,部署的原因多為修復BUG及功能新增,而就當前Filecoin網絡狀況,目前原力運維要做到的是靈活部署、隨時可部署、隨時更新鏈版本,實現在第一時間可以推倒已有集群,并重新部署一遍全流程,對于任何細節的調整要有數十倍的復查測試,實現對網絡變化的快速反應,這也是實現實時最優挖礦收益的前置準備。
3.3.2顆粒度
Filecoin挖礦服務在實現數據監控可視化、運維應用狀態監控可視化之外,顆粒度也是極細,比如做Sector的過程中自動化監控P1-P7狀態及返回值。
當原力區運維工程師將數據化、自動化、精細化、平臺化顆粒度足夠精細后,海內外的自動化部署即達到分鐘級執行完畢,通過后臺一鍵管理全部服務器,并行部署新代碼,自動化工具壓縮部署時間,實現節省99%耗時的效率優化,這少則百兆的數據包的分鐘級遠程部署對行業來說是一個挑戰,對Filecoin礦池技術的推進卻是一個跨越。
五、自動化大體量運維
Filecoin大礦工測試中原定“5PB”的大礦工標準,在目前看來對行業已然不是挑戰,據評估Filecoin主網在上線前3-6個月將達到1000PB,這個數據帶來的是Filecoin運維工程師們提前準備的一項作業:如何大體量運維?
目前看來自動化運維是解決大規模集群運維的唯一方式,也是運維工程師面對的最大挑戰。如何管理好幾十萬臺服務器上的服務,同時保障服務的高可用性,這里需要集群復制能力,但相較傳統運維項目,復制部署復雜度數十倍增長。做好24小時駐場維護保障設備上架;高頻定時環動監控及日志記錄保障設備運行;自動化分布式部署、分布式監控系統保障系統運行;核心網絡監控,護航設備&系統&應用連通率;成熟的1保5冗余保護策略保障數據安全;攻防防護保障等等等等,這依然遠遠不夠,運維的路很長,沒有盡頭……
六、總結
當我們翹首以盼的主網來臨,Filecoin開發工程師將逐漸歸隱,Filecoin的發展終將交付于社區,網絡運行狀況且看大礦工的運維工程師們的本領。
在太空競賽這最后一關,運維工程師們的忙碌將得以回報,具體當前未可知,我們且看8月25日。
IPFS研習社專注IPFS/Filecoin研究,歡迎添加微信交流:XF2020IPFS
8月22日上午10點,Filecoin官方人員momack2在slack發布最新消息:各位太空競賽參與者,距離競賽還有3天.
1900/1/1 0:00:002008年,銀行破產,信用體系崩潰,卻沒有阻止美元的泛濫,只讓美元更泛濫。當被問到美聯儲撒了上萬億美元出去,花的是不是納稅人的錢的時候,時任美聯儲主席伯南克說:“不是納稅人的錢……,我們不過用電.
1900/1/1 0:00:00官方目前已經在Testnet開始測試,調試各項Spacerace相關網絡代碼進展,IPFS研習社將實時傳達最新資訊.
1900/1/1 0:00:00研究表明,中本聰是一個人而不是一個團隊的假設更有說服力。Patoshi挖礦模式研究者SergioDemainLerner的最新研究表明,重新挖掘揭示了Patoshi挖掘算法在掃描內部隨機數時,傾.
1900/1/1 0:00:002020年8月24日,Asproex(阿波羅)生態通證Moon完成第一期回購銷毀,銷毀數量為513698枚Moon,區塊高度為10721197.
1900/1/1 0:00:008月22日-23日,“共享新機遇——2020全球區塊鏈算力大會暨新基建礦業峰會”在成都舉行。本次大會由成都市新經濟委、成都市科技局及成都市成華區人民政府指導,由成都市成華區新經濟和科技局、成都市.
1900/1/1 0:00:00