深度|超算上“云”不管你愿不愿意,它來了

目前越來越多的公有云開始提供高性能計算服務,我們從現在到未來預見高性能計算上云將是個勢不可擋的趨勢,基于以下幾個理由:

 

0和1問題,就拿工業產品的設計制造來說,以前我們主要是逆向設計制造。但是隨著時代的變化,我們產品的創新,提高質量和經濟效益來說,我們越來越依賴于正向設計,而正向設計需要大量的建模和模擬仿真計算。這就需要大量的高性能計算。對于中小企業來說,構建傳統的HPC基礎設施是昂貴的,而且企業無法快速支撐HPC的需求爆發性的增長。所以超算云是幫助他們解困的必由之路。

 

傳統云計算服務市場逐漸飽和,刺激各大云提供商的持續投入,終于讓高性能計算上云不再只是少數傳統玩家的專利。

 

隨著科學技術的進步,原來的一些問題和障礙也會逐步得到解決,比如高速網絡的成本價格會降低,適合HPC低消耗的容器技術被大量用在HPC的應用上。

 

在商業的HPC市場,應用軟件的成本和硬件之比大約是7:3,這也是阻礙HPC上云的一大障礙,但是隨著HPC應用大量開源軟件的出現和國產化工業APP的發展,人們使用HPC的成本會大大降低,這將會激發更多的用戶上超算云。

 

來自Market Research Future的《CloudHPC市場研究報告——及2023年預測》。

 

我們再來看看目前公有云發展所帶來的一些優勢,而這些往往受超算中心所不具備的。

 

規模:就拿中國市場來說,我們所有超算總節點數不超過10萬,而云服務器總規模超過100萬

 

可用規模:不同于超算中心模式,云計算中心的各個可用區之間是可以打通的,甚至還可以在不同云廠商之間通過API調用打通使用,這意味著云計算中心的可用規模約等于其總規模。超算中心對單個用戶申請的資源上限進行嚴格審核,如國家超級計算長沙中心規定單個用戶最多使用100個節點。云計算中心對于單個用戶也有類似的限制,稱為“服務配額”,但這是由商務模式決定的,不是由技術限制決定的,類似給用戶發放信用卡一樣,信用越高額度越大。

 

短時最大可調用規模:云計算的一大特色就是具備短時間內大規模調用海量計算資源的能力,這一能力已在各行各業經過了充分的驗證。前不久,哈佛大學醫學院在《Nature》發布了VirtualFlow開源藥物發現平臺,稱利用該平臺調用16萬個CPU對接10億個分子僅耗時約15小時,而使用1萬個CPU則需要2周。

 

 

除了公有云對資源使用的規模和靈活性外,它還有其它方面的優勢:

 

種類繁多的基礎資源,云計算中心主要提供的是虛擬資源,用戶能夠享受到更為豐富的計算資源選擇。如某公有云廠商的企業級云服務器ECS分為通用型、計算型、內存型、大數據型、GPU型、本地SSD型、高主頻型、FPGA型、彈性裸金屬九大類,其中每一種類型還可以選擇與不同存儲和網絡的組合。

 

存儲空間方面,可以選擇20-500GiB不等的高效云盤或SSD云盤作為系統盤,單塊數據盤最多則可配到32768GiB。網絡帶寬的選擇范圍也很大,用戶可以選擇“按固定帶寬”和“按使用流量”兩種帶寬計費模式,前者的帶寬值可選范圍為1-200M,后者的帶寬峰值可選范圍為1-100M。

 

附加產品和服務:不同于超算中心,云計算中心的產品可以用玲瑯滿目來形容。這是因為云計算的服務對象要比超算客戶廣泛的多。

 

 

靈活的計費模式:相對于超算中心的機時計費或節點獨占模式計費,云計算由a)預留實例,相當于批發,主要針對中長期穩定需求,優點是價格整體比較低,缺點是資源必須長期持有,靈活性差。b)按需實例:相當于零售,即買即用。針對短期彈性需求,按小時計費,靈活精準,避免浪費,但價格比較高。c)可被搶占實例,相當于秒殺,手快有手慢無。

 

所以很明顯,超級計算和云計算相結合,為云計算市場和超算領域的市場注入了一股清新的潮流。優勢互補是大家能夠看到的希望。無論是中國國內還是海外主流云服務提供商都對HPC云給予了極大的熱情,基于對云計算前景的樂觀。HPC云早晚將成為云計算的一只耀眼的明星。

 

 

世界Top 5 超算云提供商(HPC in the Cloud):

第一名AWS,亞馬遜從2006年以來一直提供HPC的云服務,在這個領域處于領導者地位。AWS主要提供具有無與倫比存儲能力的IAAS解決方案。AWS可以讓企業通過租用而不是購買有能力運行計算密集型的計算任務,使得客戶節省大量的金錢和最大限度地減少浪費。

 

通過AWS,您能在數分鐘內完成高性能計算集群的創建,并將并行HPC 任務的數量增加到大多數本地HPC 環境都無法支持的規模,從而提高研究速度并縮短獲得成效的時間。AWS 可按需提供針對特定應用程序進行優化的CPU、GPU 和FPGA 服務器,有眾多的服務器類型選擇,無需巨額資金投入,從而幫助降低成本。您有權限訪問面向緊密耦合、IO 密集型和存儲密集型工作負載的完全等分的高帶寬網絡,這使您能夠在數千個核心之間橫向擴展,從而更快獲得成效。

 

最初EC2服務被不適合運行HPC應用程序。就此,Amazon專門為HPC創立了“集群實例(Cluster Instance)”,根據用戶需求可配置虛擬HPC集群實例提供給用戶。他們的第一個產品是提供兩個集群實例,提供了數量眾多的CPU ,并配置了高性能的網絡(10 GigE )。實例有兩種規模的CPU核數,一是基于Nehalem 的4倍特大實例(8核/節點,23 GB RAM ,1.7 TB本地存儲),另一種則是基于Sandy Bridge 的8倍超大實例(16核/節點,60.5 GB 的RAM ,3.4 TB 的本地存儲)。

 

此外,Amazon 還提供了另外兩個專門的實例。第一個是GPU集群實例,它提供了兩個NVIDIA Tesla Fermi M2050 GPU ,具有比例較高的CPU 和10 Gi gE 網絡性能。第二個是高I / O 實例,它提供兩個基于SSD的卷,每個卷具有1024G 的存儲空間。

 

根據資源的按需、計劃或現貨購買,定價可能有所不同。通常,按需EC 2 實例的成本如下:四倍超大實例是1.3美元/小時(0.33美元/核時)八倍超大實例是2.4美元/小時(0.15美元/核時),GPU集群實例是2.1美元/時,高I/O實例為每小時3.1美元。

 

因此,使用小型(80個核,每個核4 GB RAM ,500 GB存儲)將花費每小時24.00美元(10 個8倍超大實例)。更大的使用情況(256 個核,每個核4 GB RAM ,1TB 快速全局存儲)將花費38.4美元/小時(16個8倍超大實例)。

 

Amazon 對傳輸到EC 2 的數據不收取費用,但對從云中傳輸出去的數據收取不同的費用;此外,EC 2 存儲成本也是存在的。因此,總成本取決于計算時間、總數據存儲和傳輸。一旦創建了實例,就必須由用戶提供和配置實例,使其作為集群工作。

 

 

第二名Google,如同AWS谷歌云平臺也提供了IAAS方案,但是谷歌提供了非常特別的按-分鐘計費模式。谷歌允許客戶選擇開源的Hadoop或則谷歌的Cloud dataflow 來處理和存儲數據。谷歌具有競爭力的價格使它們能夠吸引大公司和中小企業。

 

 

第三名微軟Azure 為企業提供機時付費的HPC解決方案。微軟的優勢是在于那些微軟的老客戶,他們一直習慣于微軟的產品和解決方案。Azure提供了易用平臺來集成Windows系統來支撐HPC任務運行在云中。Azure為SAAS和PAAS客戶提供量身定制的解決方案。

 

 

第四名IBM Spectrum計算允許用戶從各種公共、私有或混合云基礎設施中進行選擇。為客戶提供使用靈活的遠程管理系統的機會。IBM為企業客戶提供了許多開箱即用(out of box)的解決方案,包括IBM 高性能計算服務,高性能分析服務,IBM Spectrum等。IBM將這些軟件包作為開箱即用的解決方案提供,而不是為企業客戶創建可定制的解決方案。

 

 

第五名企鵝的Computing on Demand (POD)盡管企鵝是第一個建立真正HPC 云的廠商,但是在排名上只能在第五位。POD云,是第一個提供遠程HPC服務的。從一開始POD 就是一個類似于內部集群的裸機計算模型。每個用戶都有一個虛擬機的登錄節點,該節點在代碼執行中不起作用。標準計算節點有一系列選項,包括雙四核至強、雙六核至強或四核12核AMD處理器,速度范圍從2.2至2.9GHz,每臺服務器24至128Gb內存,每個節點最多1Tb的本地臨時存儲。

 

POD提供預裝數百個應用程序的HPC集群服務。這樣做的好處是,允許用戶可以為自己量身定制HPC解決方案。Penguin 類似于IBM 提供這些開箱即用的產品,但是用戶只為他們構建、管理和使用的套餐付費。

 

 

相對于云計算市場,高性能計算云相對比較晚,我們預計它在未來幾年將以非??斓乃俣仍鲩L。上述公司只是市場上一些大公司的名單,并不是所有HPC云運營商的名單。我們可以看到未來幾年會有更多的供應商將在一些狹窄領域上線提供服務。我們將看到由于競爭的增加導致更多服務提供商。

 

毫無疑問,我們會看到滿足各種需求的HPC云,這樣的選擇范圍差異很大。每個提供商都有自己的功能集,對用戶來說最重要的一步是確保他們為自己的需求選擇最佳的解決方案。
 

 

中國超算云提供商

 

IDC最新發布的《中國公有云服務市場(2020第四季度)跟蹤》報告顯示:2020年第四季度中國IaaS市場規模為34.9億美元,阿里巴巴仍然占據市場份額第一的位置,華為與騰訊并列第二,中國電信和AWS位居其后,前五服務商共同占據77.4%的市場份額。

 

盡管沒有直接數據說明中國公有云在高性能計算方面的排名,我們就簡單按其公有云的市場排名來一一說明這些廠商在HPC云方面的情況

 

阿里E-HPC

自從阿里2017年9月,阿里云宣布推出全新一代異構計算加速平臺稱作E-HPC。阿里的EHPC提供的是機遇阿里自主的神龍服務器架構構建的裸金屬服務器,這不同于AWS提供虛擬機的高性能計算集群。屬于高性能計算的IAAS服務層次。2020年阿里云彈性計算產品年度發布會上,阿里云宣布推出第三代神龍云服務器,即第三代彈性裸金屬服務器(ECS Bare Metal Instance),它是基于阿里云完全自主研發的下一代虛擬化技術而打造的新型計算類服務器產品,兼具虛擬機的彈性和物理機的性能及功能特性。

 

據介紹,《流浪地球》制作方MORE VFX(墨鏡天合)已將算力需求最大的渲染環節遷上阿里云。傳統的后期處理,對計算力的需求會隨項目而變,低谷期利用率不高、高峰期資源無保障,且排隊嚴重。為了解決這一問題,MORE VFX通過專線上云,利用阿里云高性能計算E-HP服務,在云端完成渲染,一天可以處理原本一周的量,大大縮短了渲染等待時間。

 

 

華為HPC云

華為云的產品線分為線上和線下,作為華為的高性能產品和解決方案以線下為主,也就是說以私有部署為主。其HPC解決方案面向汽車制造業、生命科學、金融領域、石油天然氣、動畫渲染、氣象預測以及教育科研等行業,具備超強的計算能力、靈活高效存儲以及極速的網絡性能,在行業內具備多項唯一:

 

"唯一支持裸金屬能力的廠家,裸金屬服務無虛擬化損耗,最大規格達到96核4T。

"唯一支持100Gb的Infiniband網絡的廠家。

"唯一提供基于Infiniband網絡的Lustre高性能并行文件處理系統的廠家,單個OSS存儲節點讀寫帶寬均能達到4.5GB/s,最高達到2TB/s,目前業界性能最高。

 

除此之外,華為云HPC也正在與AI技術進行深度融合,提供更加創新的資源服務。AI讓HPC實現更優化的資源分配和能源管理,HPC幫助AI實現更強大的算力,兩者結合幫助企業從容應對機器學習模型訓練不斷增長的計算需求。華為云HPC搭載最強的NVIDIATeslaV100GPU加速卡,應用于AI訓練領域,其訓練性能比上一代P100卡提升3倍多。

 

目前,華為云HPC解決方案已在汽車制造、基因測序、科研教育等領域為客戶成功部署了云上的高性能計算資源。其中汽車制造行業,國內已有多家"財富"500強車企選擇基于華為云建設HPC資源,用于新車仿真測試。

 

除了聚焦于自身技術能力的建設,華為云HPC解決方案將持續與行業領先的廠家進行合作,如達索系統、ESI、ANSYS等,雙方進行聯合測試、基于客戶需求進行產品調優,未來,將為行業客戶提供最符合自身需求的解決方案。

 

 

騰訊超算云

騰訊超算云提供了集合黑石物理服務器、云服務器(CVM)、存儲、網絡、批量計算(Batch)、深度學習DI-X平臺等優勢產品的云端高性能計算解決方案。其有三大特點:

 

快速可獲?。河脩艨杉磿r獲取HPC資源并快速擴容,可通過HPC PaaS平臺按小時購買,也可按月、按季、按年租用專屬HPC集群,減少了集群的建設周期,也不用一次性巨額資金投入。

 

資源靈活配置:使用者可以根據應用需求創建各種配置的HPC 群集,比如減少GPU服務器配比,增加FPGA服務器等。同時還能在技術革新后,即時使用到換代機型,用戶不用再受限于HPC資源,加快研發速度,節約研發成本。

 

高性能硬件:騰訊超算云采用基于英特爾至強可擴展處理器定制機型的黑石服務器,并針對HPC應用進行專門優化,高性能無虛擬化開銷。同時提供包括NVIDIA P100/V100 GPU機型、FPGA機型等在內的各種異構計算機型,加速多機并行應用,讓應用享受最新的硬件加速。

 

同時,騰訊超算云專門為HPC集群設計了高可用高帶寬和可擴展性強的網絡架構,大幅提升網絡性能。其中,騰訊超算云提供40GE/100GE的RDMA網絡,延時小于1.5us,還能兼容基于MPI的傳統HPC應用;并提供GPUDirect RDMA功能,使多機多GPU之間的帶寬和延遲性能得到大幅度提升。

 

此外,為了應對高性能計算對存儲的高標準需求,騰訊超算云提供文件存儲CFS和高性能并行文件系統,其中騰訊云并行文件系統基于騰訊分布式存儲架構,能提供TBps級的吞吐帶寬和EB級文件系統。

 

基于優勢基礎能力,騰訊超算云還針對工業制造(CAD/CAE、碰撞、材料模擬等)、生物基因和人工智能等場景推出基于業務流的PaaS平臺和行業應用的集成,讓客戶在使用高性能計算服務時專注產品研發和創新,無需關注底層集群和調度系統,提升產品研發效率和上市速度。

 

 

超級計算機將向云靠攏

 

當人們遇到一個大到一臺計算機處理器無法處理的難題時,他們會怎么做?無外乎是超級計算機或分布式計算方案,或者云計算方案。

 

甭管是超算方案還是云方案,應用肯定需要多處理器了共同完成一個任務。

 

一臺計算機包含處理器和存儲器。從本質上講,處理器執行指令,存儲器保存數據和指令。對于一個簡單的基礎計算,或許一臺計算機,一個處理器就夠了。但是如果要處理許多不同的變量或大型數據集,顯然一個處理器是不夠的,我們需要額外的處理器來解決問題。我們現在有越來越多的場景需要使用大量的計算資源,比如實時天氣預報,航空航天和生物醫學工程,核聚變研究和核儲備管理等等。

 

 

面對這些問題的求解,人們需要更復雜的系統,可以更快和更有效地處理數據。為了實現這一點,人們在一個系統里集成了成千上萬個處理器。

 

如果要采用多處理器方式,我們有二種選擇,一個是超級計算機。超級計算機非常大而且昂貴。在這種方案中,計算機與其所有的處理器位于同一位置,所有的東西都通過本地網絡流動。另一個選擇在一個廣域網或互聯網上集成各種處理器,稱之為分布式計算。這也是當下廣泛被接受的云計算模式,處理器可以位于不同的地理位置,所有通信通過互聯網或廣域網。

 

那么我們是采用超算還是云計算?

由于數據在超級計算機的處理器處理得如此之快,同一任務可以一臺超級計算機上計算沒有任何問題,這非常適合那些需要實時處理的應用程序。缺點是它們的成本往往高得令人望而卻步。它們由昂貴的處理器、快速內存、特別設計的組件和精心設計的冷卻機制組成。另外擴展一臺超級計算機并不容易:一旦機器建好,加載額外處理器就不是個簡單任務,這需要啟動一個項目來完成它。

 

相比之下,人們選擇云的分布式計算的一個原因是它的價格要便宜得多。分布式網絡的設計可以非常復雜,但硬件組件和冷卻不需要是高端的或專門設計的。它可以無縫擴展:隨著額外的服務器(及其處理器)被添加到網絡中,處理能力也會隨之增長。相比較于超級計算機的優勢在于通過快速連接短距離發送數據,云計算的分布式架構下數據是通過較慢的網絡傳輸的。所以云計算架構不適合傳統意義上的高性能計算類應用,比如那些MPI類的應用。

 

 

顯然超算和云不是零和博弈,不同的應用場景決定了那種方式更有性價比。

 

比如新郎新娘過幾天要結婚,除了選擇黃道吉日外,他們還要對婚禮當天的天氣非常關注,然而看似簡單的問題,其實回答它并不是個簡單問題。天氣預報是極其復雜和眾所周知的難以預測。

 

一般氣象局使用超級計算機來進行天氣預報處理,為了正確地確定某一地區的天氣可能如何演變,超級計算機將模擬大數據,包含溫度、風、濕度、氣壓、陽光等隨時間變化的巨大數據集。為了實時得到合理準確的答案,您必須非??焖俚靥幚硭袛祿?。我們一般認為想要實時更新天氣預報,那么使用超級計算機是必要的,但是問題是如果這里有數百萬的實時應用在等待中,該怎么辦呢?

 

我們就不得不說云計算的優勢了,作為分布式計算機系統,云擁有一臺超級計算機所不具備的巨大數量的處理器和內存。所以對于那些對延遲不那么敏感的應用,使用云計算是個解決辦法。例如,當美國宇航局的噴氣推進實驗室(JPL )需要處理其火星探測器收集的大量圖像數據時,托管在云上的計算機集群是一個天然的好辦法。

 

 

云作為分布式計算的一種形式,云計算又定義的計算資源的提供方式是一種服務,這意味著云廠商為這種分布式計算環境的性能,可靠性,可彈性完全負起了責任。

 

也就是說用戶使用這些資源不再需要維護,更新,擴展。這些都有云服務商做了。

 

在了解了云計算和超級計算的區別,我們來看看一個云計算作為超級計算機的用途案例(引用David Stepania在其linkin的文章“Supercomputing vs. Cloud Computing“ )。

 

金融分析師布拉克斯頓·麥基(BraxtonMckee)身處華爾街競爭激烈的世界。作為對沖基金Ufora的創始人,McKee開始在云計算領域進行探索,他知道云的計算能力和其廣泛使用的技術是前所未有的。他開發了一套智能應用程序,該程序可以隨著使用而變得更加聰明,Mckee創建的電子表格有多達100萬行和100萬列!而這個計算傳統上需要超級計算機或者至少是大型計算機來運行,現在靠云就可以以低廉的成本運算出來,這得益于這些應用屬于大數據的特點適合云計算。

 

Kelly Bit. Rather解釋說:“他們的努力值得注意的不是人工智能技術從科幻小說到具體落地的事實。”而是,“令人吃驚的如此龐大的數據分析變得如此廉價,以至于許多企業都很可以負擔得起。”

 

人工智能和機器學習已經被一些對沖基金使用多年了。如今,Ufora和類似的組織正在使用云來運行復雜的預測模型,否則這些預測模型將非常昂貴。

 

以前,McKee使用的計算系統將需要幾個月的開發和100多萬美元的服務器投入?,F在,他只需訪問云服務器可立即運行應用處理這些數據即可。

 

與專用計算相比,云計算在數據分析問題的速度要快得多,因此Mckee的目標--讓計算機在他片刻休息的時間內就能完成其工作--聽起來很有道理。Bit說:“他的目標是讓每一個模型--不管涉及多少數據--都能在他的辦公室廚房里煮一杯Nespresso Caredto咖啡,然后走他的辦公桌的時候計算就能完成。”這聽起來很酷?

 

 

在人工智能的機器學習方面,云計算也大有可為。人們已經認識到使用公共云運行復雜的算法變得更加可能--更有效率,也更經濟。反過來,人工智能行業正在蓬勃發展??纯磁聿┥?Bloomberg)有關風險資本對人工智能的信心的數據就知道了:

 

風險投資人工智能初創企業總數2014年16家,總投資3億美元,  2010年2家總投資1500萬美元,你可以看到云的興起導致了人工智能投資的快速推進。一般認為從事機器學習的公司專長在人工智能的算法,其實擁有樣本大數據和樣本數據分析的能力才是最重要的。相對于封閉的系統,云上的大數據分析能力就像開通一臺虛擬機一樣簡單:它是即時的。正因為如此,基本上每個人都能獲得非常強大的預測模型。

 

而對于傳統科研教育的超級計算機而言,向云方向移動開始顯現。當我們討論超級計算機和云的超級計算機潛力時,我們真正談論的是高性能計算(HPC)的日益增長的價值和可訪問性。大學和私人公司的研究人員需要高性能計算機,他們正求助于公有云來提供這種服務。

 

Idc的研究員史蒂夫康威(Steve Conway)表示,使用云服務的hpc的可能性有點令人難以置信。貝寶(PayPal)通過在高性能HPC環境下運行,節省了7億美元。

 

IDC的預測顯示,高性能計算在這十年將繼續穩步的大幅度增長:

 

2018年高性能計算機硬件和軟件分別是147億美元和290億美元,而2013年分別是103億美元和200億美元

 

公司轉向使用高性能計算是為了更好地管理大數據任務。這些系統現在對許多科學家、制藥研究人員、工程師,甚至是情報界來說都是必不可少的工具。對于那些數據密集型的應用正從超級計算機轉向云。

 

 

數據中心專家ArchanaVenkatraman舉了一家美國公司的例子,該公司“想要建造一臺15.6萬核心的超級計算機,用于分子建模,以開發更高效的太陽能電池板。”為了實現這一目標,該公司利用了云的廣泛分布的資源特性,將跨多國的資源聯系來作為一臺超級計算機系統來使用。為了完成這個項目,該公司總共運行了1.21千兆字節,處理了205,000種可能的太陽能電池板材料的數量。通過云計算將原來需要264計算機年(一臺普通計算機需要運行264年)濃縮成18個小時,該公司實際上創造了全球排名前50位的超級計算機之一,而無需組裝任何物理部件。

 

云是總望所歸

云本質上是將高性能計算大眾化。這對于那些以前無法使用超級計算機的人來說是個好消息。在超算在與云廠商合作之前,超算中心就不是個分布式架構,而是集中式的建設大型機,集中存儲和以太網網絡技術。這種架構導致了超算不真正的100 %高可用。比如超算中心斷電了,一切將會癱瘓,有了云情況就不同了,一個數據中心斷電了,其他地方的數據中心可以繼續為客戶提供服務。

推薦閱讀 

在線咨詢 MESSAGE

姓名 *

電話 *

郵箱 *

咨詢意向 *

公司名稱

所屬行業

需求概述 *

{转码词},{转码词1},{转码词2},{转码词3}