彌補性能鴻溝,傲騰在企業(yè)應用中加速普及

企業(yè)類應用與桌面類應用的一個顯著區(qū)別,就是它們在設計時可以充分利用超大內存,會主動對內存和硬盤的使用進行規(guī)劃以及性能優(yōu)化,都做得很專業(yè)。然而,在這個數(shù)據暴漲的時代,一些大數(shù)據類應用對內存的需求已經超出了可接受的成本范圍,此時不得不使用NVMe硬盤來承載大量的從主存中騰挪出來的數(shù)據。

對于某些強烈依賴內存的系統(tǒng),比如內存數(shù)據庫,內存計算系統(tǒng)而言,SDRAM到NVMe盤的性能落差甚至都覺得太大,而導致最終性能不令人滿意。所以對于這類應用,一個位于SDRAM和NVMe盤之間的存儲器層級,就十分必要。英特爾?傲騰?持久內存恰恰填補了這個空缺。

針對大數(shù)據激增企業(yè)端的存儲壓力,英特爾推出了兩大數(shù)據中心產品:英特爾?傲騰? 持久內存和英特爾?傲騰?固態(tài)盤。雖然英特爾?傲騰?持久內存 和英特爾?傲騰?固態(tài)盤都使用了相同的英特爾?傲騰? 內存介質,但它們是完全不同的產品。英特爾?傲騰? 持久內存容量大,性能接近于傳統(tǒng)的DRAM內存,但價格更親民。位于 DIMM 封裝中,在 DRAM 總線上運行,可以作為易失性內存或持久內存使用。而英特爾?傲騰?固態(tài)盤嚴格用于標準 NAND 封裝模型(AIC、M.2、U.2、EDSFF 等)中的快速存儲,并采用 NVMe* 協(xié)議駐留于 PCIe 總線上,作為存儲設備始終保持數(shù)據持久,可以讓更多存儲中的數(shù)據更加靠近CPU。

想要理解英特爾?傲騰? 持久內存的優(yōu)越性,不妨說說傳統(tǒng)的內存和存儲架構。在傳統(tǒng)內存和存儲架構中,是讓 DRAM 內存直接訪問存儲設備。這些存儲設備可以是以往的塊存儲設備,也可能是 NAND 固態(tài)盤。然而,內存和存儲設備之間,在數(shù)據讀取速度和容量上難以匹配。DRAM 的數(shù)據讀取速度快,缺點是太貴且容量密度有限,因此服務器總內存容量受限,且DRAM內存上的數(shù)據無法持久保存;存儲設備成本低、容量大,數(shù)據可持久保存,缺點是數(shù)據的讀取速度慢?;诖耍ㄟ^在 DRAM 內存和塊存儲設備之間加入大容量 SCM 層——英特爾?傲騰?持久內存,極大地提升了內存存儲,保證最常用的數(shù)據以最高性能進行訪問,以高性價比提供了出色性能。

說說離我們生活較近的案例,在我們日常生活中,很容易發(fā)現(xiàn)自己的使用習慣、消費習慣、生活喜好很容易被大數(shù)據抓取,用于用戶畫像、商品推薦等業(yè)務,這些業(yè)務的背后都可能有Redis存儲的支持。作為內存數(shù)據庫,Redis 依賴高內存容量,這樣才能愜意地享受比固態(tài)盤更高的數(shù)據吞吐帶寬,以及更低的數(shù)據處理延時。

英特爾?傲騰?持久內存可在每個CPU的內存總線上提供高達 3TB 的內存容量,同時性能接近 DRAM。與第二代英特爾?至強?可擴展處理器搭配使用,提供比前幾代處理器更出色的單位內核性能和內存容量,這些因素均有利于 Redis 的部署,并且體現(xiàn)在具體數(shù)據中。

來看數(shù)據測試,兩套配置幾乎完全相同的服務器系統(tǒng),區(qū)別在于一臺使用英特爾?傲騰?持久內存,另一臺使用傳統(tǒng)內存,測試下來,兩系統(tǒng)提供的性能和虛擬機密度類似,延遲均小于 1 毫秒。但采用英特爾?傲騰?持久內存的系統(tǒng),每個虛機可以降低 20% 成本,同時還能滿足所有虛擬機 SLA 要求。這是針對單機同內存容量的狀況的成本分析。

在 Redis 服務器集群中使用英特爾?傲騰?持久內存,成本可以降低高達 40%,而且由于單臺服務器搭載內存更多,因此服務器節(jié)點更少,無論是基礎設施的運維,還是數(shù)據的管理,都更加方便。

英特爾?傲騰?持久內存加速阿里Mars系統(tǒng)

在一次測試中,阿里的Mars分布式內存計算框架利用英特爾?傲騰?持久內存,取得了很不錯的性能加成。如下圖所示,當需要處理的數(shù)據集超過了主存承載能力之后,溢出后的數(shù)據被放置在傲騰?存儲器而不是之前的NVMe硬盤中,隨著數(shù)據量溢出主存,傲騰?方案的性能會有顯著提升。

Mars是一個基于張量的統(tǒng)一分布式計算框架,突破了現(xiàn)有大數(shù)據計算引擎以關系代數(shù)為主的計算模型,將分布式技術引入科學計算和數(shù)值計算領域,極大地擴展了科學計算的計算規(guī)模和效率。目前Mars已經實現(xiàn)了70%的Numpy常見接口,用戶只需要通過import Mars就可以將已經編寫好的基于Numpy的代碼移植到Mars中。

Mars會將張量自動在各個維度上切分成小的chunk來分布式處理從而提升并行性,以便于將小顆粒任務派發(fā)到GPU,或者網絡遠端的其它集群節(jié)點上并行計算。

舉例來講,對于張量矩陣乘法,Mars會生成如下圖所示的chunk級別執(zhí)行圖。在執(zhí)行過程中,會有大量的中間過程,這些過程生成大量的數(shù)據會占用寶貴的主存資源。

每個chunk執(zhí)行完畢之后,結果數(shù)據會被放置在shared memory中,當share memory中數(shù)據過多時,Mars會啟動spill溢出控制機制,將溢出的數(shù)據轉移到下層更大容量的存儲器中。

經過評估,阿里發(fā)現(xiàn)使用英特爾?傲騰?持久內存來作為主存的下一層存儲器,無論是在性能上還是TCO上,相比直接用NVMe盤作為下層,都非常符合Mars系統(tǒng)的預期。

英特爾?傲騰?持久內存提供128GB、256GB和512GB容量,遠高于目前最大容量僅限于每DIMM 128GB的可用SDRAM DIMM,而且與傳統(tǒng)DRAM DIMM相比,英特爾?傲騰?持久內存的每GB成本更低。英特爾?傲騰?持久內存通過內存總線直接連接到處理器,在基于App Direct(簡稱AD)模式下,應用程序可以完全繞過操作系統(tǒng),不需要設備驅動程序、系統(tǒng)調用、中斷和上下文切換,就可以從用戶空間直接訪問英特爾?傲騰?持久內存上的數(shù)據。下圖所示為采用NVMe閃存盤、NVMe傲騰?盤和英特爾?傲騰?持久內存的訪問延遲對比。

總體而言,使用英特爾?傲騰?持久內存,解決了Mars科學計算中因數(shù)據溢出傳到硬盤,導致I/O開銷增大,計算性能降低的問題。通過測試,驗證了在TCO成本相當?shù)那闆r下,使用英特爾?傲騰?持久內存能夠有效提升Mars科學計算性能。

傲騰?固態(tài)盤加速Ceph分布式存儲系統(tǒng)

Ceph是最常見的塊和對象存儲后端解決方案。作為一款開源的分布式存儲軟件解決方案,它在分布式、可靠性、易擴展、并發(fā)性能的優(yōu)勢越來越被行業(yè)作為專業(yè)存儲高性能解決方案。隨著云服務以及產業(yè)互聯(lián)網升級對存儲性能要求越來越高,英特爾?傲騰?固態(tài)盤可以在IOPS和延遲方面助力客戶產業(yè)升級,并且其高壽命的優(yōu)勢幫助企業(yè)降低維護成本。

在 Ceph分布式存儲方案中,使用英特爾?傲騰?固態(tài)盤作為緩存盤為RocksDB、 WAL、OSD緩存提速,低延遲加速負載間的傳輸響應,并配合英特爾?CAS緩存加速軟件進一步增強系統(tǒng)性能和可靠度。

在以成本和性能為導向的前提下,如何以較低成本實現(xiàn)最大性能的發(fā)揮?針對Ceph架構中的熱數(shù)據和溫數(shù)據進行優(yōu)化,英特爾?傲騰?固態(tài)盤+英特爾?QLC 3DNAND 方案(O+Q方案),通過傲騰?解決小的隨機I/O,QLC來解決容量問題,實現(xiàn)性能瓶頸的突破。

綜上所述,傲騰?對于企業(yè)級應用具有非常明顯的加速效果,作為下一代固態(tài)介質的排頭兵,Intel傲騰?近幾年逐步擴大生態(tài),在企業(yè)級應用加速場景先顯現(xiàn)出了優(yōu)良的效果。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2021-09-06
彌補性能鴻溝,傲騰在企業(yè)應用中加速普及
基于此,通過在DRAM內存和塊存儲設備之間加入大容量SCM層——英特爾?傲騰?持久內存,極大地提升了內存存儲,保證最常用的數(shù)據以最高性能進行訪問,以高性價比提供了出色性能。

長按掃碼 閱讀全文