課題一:并行文件系統的應用研究(系統運行部)
介紹:隨著計算能力的增強、存儲容量的增大、應用課題規模和復雜度的增加,高性能計算機對并行文件系統性能要求越來越高,在海量小文件頻繁創刪和大規模并發I/O操作的應用場景中,文件系統元數據吞吐率成為限制其性能的關鍵因素。當元數據IO負載大到一定程度,元數據服務進程掛起,導致文件系統無法正常工作。研究調度方式改變,以分散作業元數據的負載,改善高性能計算中的元數據瓶頸問題,或者可以通過研究監控上層節點IO,找到IO負載大的上層節點。另外現有的Lustre并行文件系統,對數據容錯主要是通過底層raid技術,當一個存儲數據節點故障,導致文件系統無法讀寫,研究文件系統故障節點自動數據遷移,在文件系統正常工作前提下,更換故障節點。
研究方向:并行文件系統數據智能遷移研究、并行文件系統IO負載研究、并行文件系統元數據研究、并行文件系統數據容錯研究
課題二:基于龍芯集群平臺的科學計算關鍵技術研究(高性能計算部)
介紹:利用深圳超算中心的龍芯集群,建立起龍芯集群應用軟件性能剖析環境并推廣其應用,使我國全國產高性能計算機從花錢“搭建”進步到全面掌控的國際領先水平。研究內容分為科學問題研究和工程應用研發兩部分,前者主要是研究龍芯集群上的性能優化與測評方法,后者主要是完成有價值的應用在深圳超算龍芯集群上的移植和優化。
一、龍芯集群的性能測評與優化。主要包含科學及計算庫、自動向量化、CC-NUMA架構優化和性能剖析工具研究4個內容:
(1)科學計算庫在支持通用的科學計算應用:
1)針對基于全新GS464E架構的單路四核龍芯3A2000和四路十六核龍芯3B2000高性能通用處理器,對GotoBLAS庫Level3級核心函數DGEMM及其他核心函數進行優化算法和優化手段的研究。
2)針對大型CC-NUMA系統中多層存儲結構,將OpenMP與BLAS庫結合起來協同優化。
(2)自動向量化:
1)完善針對基本塊的SLP向量化和針對嵌套循環的多面體模型(PolyhedralFramework)等自動向量化技術,使龍芯3B的SIMD擴展指令得到編譯器的有效利用。
2)在GCC中實現龍芯3B的向量化支持,增加龍芯3B的體系結構信息。
(3)CC-NUMA架構優化:
1)研究類似于IntelParallelStudio的PGO(profile-GuidedOptimization)的優化框架;
2)將局部性泄露的定量評估引入到線程和內存布局的最優求解過程中,形成新的布局求解算法;
3)嘗試將布局算法結合到GCC中或編譯器預處理模塊上。
(4)性能剖析工具研究:
1)分析現有的眾多性能剖析工具,評估其在龍芯上的實用性情況和移植工作量;
2)選擇三個層次上的最基本功能,確定出龍芯性能剖析工具的框架;
3)開發或移植相應的性能剖析工具,形成可用的軟件套件。
二、應用優化實踐研究。涉及到應用軟件的移植、測評和優化實施:
1)將若干備選的應用軟件移植到龍芯集群,分析和評估移植可行性;
2)完成代碼的移植、編譯、調試和試運行;
3)利用本項目研究的性能剖析工具進行性能測評和分析,評估其可優化空間。
4)聯合第三方用戶單位,將應用軟件實施有效運行。
課題三:高性能計算環境應用服務優化關鍵技術研究(高性能計算部)
介紹:本課題隸屬于863重大專項高效能計算機及應用服務環境(二期),主要內容是立足已有的高性能計算環境基礎,重點研究高性能計算環境的應用服務優化關鍵技術,包括資源彈性調度、統一認證與系統安全、應用服務共享、資源監控和運行管理、資源記賬統計等,開發一套基礎軟件,集成國內優秀的高性能計算資源,建立具有新型運行機制和豐富應用資源的高性能計算應用服務環境,提高高性能計算資源的利用率;同時,依托國家高性能計算應用服務環境,在工業產品設計、新藥創制、數字媒體和文化創意三個應用領域建立具有新型運行模式的領域應用社區,結合領域背景知識,為用戶定制應用服務,降低高性能計算應用成本,全面提升高性能計算應用服務水平。
課題四:主機惡意行為監控與分析關鍵技術研究(高性能計算部)
介紹:項目以研究未來互聯網環境下的主機惡意行為、惡意軟件(代碼)檢測、網絡行為識別與審計技術為基礎,重點研究信息安全核心共性技術,并且將其廣泛應用于下一代防火墻軟件、互聯網網絡審計系統等信息安全產品及解決方案中。重點研究以下六項信息安全核心共性技術:
一、基于主機狀態、主機網絡交互信息的行為分析技術,包括網絡交互信息的逐層分析規則、主機狀態分析規則以及綜合行為分析技術。
二、木馬、蠕蟲、僵尸等惡意代碼的深化家族變種技術。
三、開放、可擴展的威脅場景知識庫的框架,研究威脅場景知識庫的自動化構造技術以及高效的惡意行為確認機制。
四、主機行為信息的描述方法,研究面向海量網絡行為信息的快速分析技術。
五、面向大規模網絡的遠程控制技術,遠程支持對行為異常設備的監控。
六、基于主機行為監控與分析系統的自身抗毀技術,抵御各種惡意軟件及應用對該系統的攻擊與損毀。
課題五:基于超級計算機的深度學習軟件平臺系統關鍵技術研究(高性能計算部)
介紹:基于超級計算機的深度學習網絡模型,即深度神經網絡和卷積網絡設計,為語音識別、圖像識別和自然語言處理等提供了高效的計算能力和算法實現基礎,針對以上應用的大規模問題的高效求解,可以為深度學習應用開發提供良好的平臺。目前該核心技術國內處于起步階段。計劃構建的深度學習網絡模型通用計算平臺,基于國產超級計算機環境實現深度學習領域中深度神經網絡和卷積網絡等環境,為深度學習提供自主可控的獨立計算環境,構建多模型融合的深度學習網絡模型通用計算平臺,實現深度學習獨立自主研究和構建超算中心可持續發展能力。
主要研究內容包括以下幾個方面:
1、面向深度學習的大規模深度學習算法及工具集的研究;
2、面向深度學習的分布式并行深度學習執行模式的研發;
3、面向深度學習的分布式并行系統的研究;
4、面向大規模應用的工程系統實現研究。
課題六:基于大數據平臺的智慧交通分析(市場推廣部)
介紹:智能交通的分析對象是整個城市的交通,具有海量數據的固有特性,車牌識別、交通監控視頻、GPS等交通相關的數據量級已從TB級別躍升到PB級別,并且存在著嚴重的信息孤島,系統之間信息共享困難、信息傳遞延緩等問題。本課題主要分析在當今智慧城市智能交通的大環境下,如何利用大數據實時處理能力、高可用高穩定特點及云計算技術特有的超強計算能力、動態資源調度、按需提供服務以及海量信息集成化管理機制建設智慧城市的海量異構的交通大數據平臺來實現智能交通數據分析。
主要研究方向如下:
1、基于大數據的交通流信息采集分析;
2、基于大數據的智能交通指揮調度;
3、基于大數據的違法及事故分析;
4、基于大數據的車駕分析研判;
5、基于大數據的交通誘導信息服務;
6、基于大數據的交通信號控制。