SkyForm任務調度系統

產品概述

 

SkyForm任務調度系統是由北京天云融創軟件技術有限公司自主研發的專為高性能計算、人工智能以及智算中心應用設計的任務調度系統,具有獨立知識產權,安全可控,核心技術不依賴于國外開源社區。本系統適用于管理強大算力的超(智)算中心、以及工業仿真、科研領域、人工智能和數據分析等領域的資源管理和任務調度。

產品定位

 

SkyForm 任務調度系統是北京天云融創軟件自主研發的高性能計算(HPC)和高通量計算(HTC)任務調度系統,有支持數萬個節點的集群、每小時百萬任務通量調度的能力。

 

SkyForm 任務調度系統支持高性能計算、人工智能(容器負載,分布式機器學習)、數據分析集群(如Jupyter分布式框架)等工作負載,充分利用裸金屬的性能,并保證用戶間的安全和數據隔離。
 
 目前,SkyForm 任務調度系統已在眾多公共和企業的超算生產環境中得到使用,具有強大的容錯、穩定、可靠、安裝簡單、使用免維護、應用兼容性強等特色, 適用于任何行業的高性能計算和高性能數據分析應用場景。
 

產品功能


廣泛的集成和兼容生態

• 融合HPC、AI、大數據等多種并發批處理應用的支持,全面兼容應用廠商已有的應用與資源管理的深度集成,快速部署和上線,包括:如CAE應用ANSYS,FLUENT,ABAQUS,NASTRAN,LS-DYNA,-STAR-CCM+,OptiStruct,SIMPACK等,EDA應用Synopsys、Cadence、Mentor Graphics以及華大九天等,以及機器學習/深度學習框架TensorFlow、MXNet、PyTorch、Intel Caffe、Spark、RapidMiner等;

• 深度集成HPC應用常用的MPI,無需配置免密SSH,遠程管理和控制MPI任務分發,自動清理任務進程殘留;

• 支持應用在容器中調度;

• 支持各種操作系統、云環境、國產CPU、GPU軟硬件平臺;

• 支持2D/3D遠程高保真、低延遲可視化技術;

• 支持國際通用調度器的常用命令行:SLURM、PBS、LSF

 

最大化應用許可利用率

• 基于應用程序許可證的調度

• 基于策略分配許可功能

• 最大化許可利用率和吞吐量

• 確保及時完成重要工作負載

 

增強的調度功能

• 確保服務質量的搶占調度

• 多級別的公平分享調度

• 基于許可或資源的搶占

• 作業陣列

• 隊列分派和運行窗口

• 獨占調度、交互作業支持

• 用戶、隊列和主機的作業限制

• 多步驟工作流的作業依賴

• 支持根據實際資源使用閾值的調度

• 支持大作業資源預留、小作業回填等

• 支持Linux和Windows混合集群的統一資源調度和配置管理;

• 簡化深度學習分布式任務資源分配和部署

 

管理功能

• 易于使用的web界面

• 用戶可以在不改變使用習慣的前提下完成前后處理和求解,利用HPC集群加速仿真進程

• 支持項目、用戶、作業、主機等多維度多指標監控和分析

• 支持作業使用的軟硬件資源進行計量計費

• 靈活的報表子系統

• 作業組支持(按組管理作業)

• 增強的NUMA環境支持

• 支持多集群管理

• 支持多種底層調度技術

 

卓越的可伸縮性和可靠性

• 支持數百萬個作業,數千臺主機

• 動態主機選擇,多路故障轉移

• 低延遲、高吞吐量調度

• 并行事件處理帶來更快啟動速度

• 針對可伸縮性的附加調整參數

• 增強的inter-daemon通信

• 可插拔的身份驗證

• 主機宕機時的作業重啟

 

靈活部署

• 避免限制性許可證協議

• 支持在本地和在云中運行

• 保持靈活性,降低許可成本

 

高品質的服務和支持

• 擁有數十年相關經驗的支持團隊

• 標準和高級支持選項

• 安裝、配置和調優的援助

• 可選的現場實施服務

 

產品價值

 

1、加速產品和科技成果研發:極致發揮高性能算力,融合和共享多種資源,提高工業設計、仿真,科學計算、人工智能、和數據分析的能力。

 

2、業務計算自動化:為工作負載智能分配最佳計算資源,保障應用性能、使計算資源和應用許可證利用率最大化。自動化、并行化運行任務流程。
 
3、融合異構資源:智能調度CPU、GPU、xPU,支持國產CPU、加速器、服務器和操作系統。支持裸金屬、容器、和虛擬化環境。
 
4、可用性提升:免維護的內置高可用、故障自愈機制,避免人工干預所浪費的時間成本。

 

應用場景

 

高性能計算系統的應用領域非常廣泛,包括CAE仿真(結構分析,流體分析,電磁場分析)、EDA、動漫渲染(圖像處理、三維渲染)、高校課題研究、電力、物理化學、石油勘探、生命科學、氣象環境(海洋預報)、航空航天設計以及人工智能等等。


 

場景一:工業制造設計仿真系統解決方案

隨著新一代信息技術(如云計算、物聯網、大數據等)與制造業的融合與落地應用,世界各國紛紛出臺了各自的先進制造發展戰略,如美國工業互聯和德國工業4.0,與此同時,在制造強國網絡強國大戰略背景下,我國也先后出臺了中國制造2025”互聯網+”等制造業國家發展實施戰略,加快建設制造強國,加快發展先進制造業,其核心是借力新一代信息技術(如數字孿生體Digital Twin),充分利用物理模型、傳感器更新、運行歷史等數據,集成多學科、多物理量、多尺度、多概率的仿真過程,實現制造的理世界與信息世界的交互與共融,進而促進制造業先進化水平的整體提升。

數字孿生面向產品全生命周期過程,發揮連接物理世界和信息世界的橋梁和紐帶作用,在虛擬空間中完成映射,從而反映相對應的實體裝備的全生命周期過程。通過工業輔助設計CAD、工業仿真CAE、虛擬轉配和制造DMU/CAM的輔助工具,由漫長傳統工業設計制造的物理過程向數字化的虛擬過程邁進。因此,在此建設過程中,亟需高效、靈活、高性能的云服務能力的支撐,來加速產品發布周期、提升產品交付質量,優化全生命周期成本。

業界解決方案的現狀

 

目前工業制造設計仿真應用支撐系統形態各異,主要面臨如下問題和挑戰:

•  仿真系統復雜度高,資源和應用的管理、運維的難度大、復雜性高;

•  常規HPC方案所能解決的問題有限,提供軟件運行環境,但操作性相對傳統落后,與用戶本地環境相比使用體驗差;

•  普遍的仿真云基于虛擬桌面方案,因此缺乏高性能、分布式并行計算能力的支持;

•  公有云服務提供商只提供硬件資源環境,用戶仍需自行解決應用部署、與本地資源連接等問題。

 

解決方案

 

天云工業制造云平臺以天云軟件的兩大核心產品SkyForm多云管理平臺和SkyForm任務調度系統為依托,提供從底層資源管理到上層工業應用管控的一體化的工業制造云解決方案。在該云平臺上提供工業設計CAD、分析和模擬CAE、數控加工CAM以及產品數據管理PDM端到端的工業制造軟件SaaS服務能力,用戶可以像本地一樣便捷、靈活地訪問和使用工業制造應用軟件,同時提供按需供給的彈性計算能力。

SkyForm多云管理平臺實現對底層異構計算資源進行統一管理,包括私有云、公有云、裸金屬服務器,為上層應用提供支撐。

SkyForm任務調度系統基于云資源以及高性能計算物理資源池,提供豐富的工業制造應用的集成、快速的應用云服務化、業務協同管理,規范的資源、數據和應用許可授權治理,高效的資源管控和調度。


 

場景二:一流半導體設計公司高性能計算解決方案

天云軟件北美研發中心與在美國、歐洲和亞洲設有中心的跨國半導體公司合作,協助在40,000個內核上部署SkyForm AIP for EDA,為客戶帶來戰略靈活性,協助遷移服務和全球支持服務。

根據業務運算的復雜性,平臺面臨以下挑戰:

1、計算節點數量多,部署復雜,安裝過程容易出錯。

2、計算節點管理調度不靈活,造成任務排隊,資源浪費。

3、各部門作業任務計算量大,需良好的調度軟件滿足等級較高的作業任務優先使用計算資源。

4、業務計算關聯性強,滿足資源共享能力。

解決方案

 

•  快速部署,大量計算節點幾分鐘部署完成。

•  計算能力,容納數千個計算節點,數十萬個內核和數百萬個作業并行計算,SkyForm任務調度系統可以調度和動態分配任務。

•  設置策略優先級,多級別分享調度,設置不同等級的作業優先級別。

•  資源利用率高,在100,000核的集群上負載1,000,000個作業,達到99%的資源利用率。


 

場景三:動漫渲染領域高性能計算解決方案

渲染是動漫、影視制作的核心環節之一,是實現創意和前期設計構想的關鍵環節,直接決定作品的視覺效果,高水平的渲染可以細致地顯示出材質紋理和光景效果,使形象更加生動逼真。目前,渲染已經成為全球重要的高性能計算應用領域,且近些年我國動漫、影視產業發展迅猛,全國各地興建動漫影視基地或創意文化產業園區,為渲染應用的普及與推廣提供了極好的契機。

隨著電影、動畫制作的不斷精細化與高清化,渲染消耗的時長以及產生的原始數據量都在飛速增長,這也對渲染農場的各方面性能提出嚴苛的要求。

目前渲染主要面臨以下幾方面挑戰:

•  單機渲染視圖和動畫非常耗時,占很大的制作時間比例;

•  計算密集型特征要求系統運算能力高;

•  海量存儲需求,并發讀寫壓力大,容易出現I/O瓶頸;

•  動漫渲染管理繁瑣,賬號控制和用戶記賬統計復雜。

解決方案

 

HPC集群資源管理方面,將分散在不同節點上的物理資源聚合起來,根據內存、閑置CPU容量、磁盤空間、臨時空間、軟件可用性,以及用戶定義的資源限制來調度并分配工作負載,支持數百萬個作業,數千臺主機超大規模的運算能力。

卓越的可伸縮性和可靠性,作業調度動態主機選擇,多路故障轉移,主機宕機時的作業重啟。

Maya, 3Dstudio MAX, XSI專業的三維建模軟件分布在多臺計算資源節點上,實現更高效的渲染;并行存儲系統提供海量、高帶寬的數據訪問;SkyForm任務調度系統對硬件平臺提供全面、完善的作業調度分配、運維管理與監控管理功能。

SkyForm任務調度系統可對用戶插拔進行身份驗證。


 

場景四:高校教學模擬研究高性能計算解決方案

各大院校都希望通過HPC強大的計算能力計算或模擬實驗運算出來的結果,來輔助完成學術和探索方面的研究和證實,這些學術和探索方面的研究課題包括生物計算,基因研究,航空航天,分子動力學,材料化學,計算化學,物理化學,結構力學,流體力學,有限元領域,氣象領域,石油勘探以及人工智能等領域。這些課題的研究成果都是高校研究能力的重要體現。

目前高校的高性能計算主要面臨以下幾方面挑戰:

1、院校各專業學生較多,需要跨多個集群、調度管理。

2、需滿足不同專業學術的模擬需求,滿足多租戶的實驗場景,實現多租戶之間的安全隔離,每個用戶使用時的體驗是自己獨享一個集群。

3、需滿足資源靈活分配要求來滿足不同課題研究環境。

4、需滿足系統批量自動發放并部署教學環境。

 

解決方案

•  海量計算能力:基于SkyForm任務調度系統的海量規模計算,模擬實驗平臺能夠快速高效獲取計算資源,大大縮短排隊和實驗模擬時間。

•  多租戶:學術和探索方向課題研究都不同,每個課題都是一個私有的運算環境,采用多租戶的實驗場景,實現多租戶之間的安全隔離。

•  集群計算能力:強大的集群并行計算能力,100,000核的集群上負載1,000,000個作業,達到99%的資源利用率。

•  降低TCO成本:開源的技術優勢,降低采購成本。

 

 

 

推薦閱讀 

在線咨詢 MESSAGE

姓名 *

電話 *

郵箱 *

咨詢意向 *

公司名稱

所屬行業

需求概述 *

{转码词},{转码词1},{转码词2},{转码词3}