工控網(wǎng)首頁
>

新聞中心

>

人物專訪

>

王雪松:大數(shù)據(jù)時代,我們需要什么樣的服務(wù)器?

王雪松:大數(shù)據(jù)時代,我們需要什么樣的服務(wù)器?

2016/9/27 14:56:24

主持人:謝謝許總,我本身是跟蹤互聯(lián)網(wǎng)產(chǎn)業(yè)的記者,但是經(jīng)常有跟蹤這些技術(shù)領(lǐng)域的記者老說我,說你跟的那些東西都太膚淺、太浮夸,我這個高大上。后來我覺得不服,所以今天我來了,來是學習了,但我覺得今天的會議的內(nèi)容非常的棒,無論是早上的主題演講還是下午分論壇大家的演講。所有的東西真的可以看出來是演講嘉賓精心準備,是跟行業(yè)整個趨勢相結(jié)合。所以我希望在座的來聽的聽眾們都給予演講者一個很好的回饋,你們的一個眼神是對我們最大的支持。

    我們接下來有請中太數(shù)據(jù)通信有限公司董事長王雪松先生,他演講的題目是大數(shù)據(jù)時代,我們需要什么樣的服務(wù)器?

    
    王雪松:其實我這個題目改了一下,我們叫大數(shù)據(jù)時代的存儲型服務(wù)器設(shè)計。主要是覺得原來那塊說的太大,改小一點。
    剛才有嘉賓談到大數(shù)據(jù),什么是大數(shù)據(jù),嘉賓談到說需要大容量的存儲,需要快速的訪問能力,我們其實今天講的就是這件事情。
    這個圖其實用了很多,我不多說了,大數(shù)據(jù)時代就是數(shù)據(jù)變得特別多。十年前我們其實談的很多東西,我們談到我們用什么樣的機器,什么CPU機器,多少CPU機器,當時我們談到存儲的時候,感覺存儲就是一個雙機共享一個存儲很好的。隨著數(shù)據(jù)量越來越大,存儲變得越來越重要。我們過去談到集成下面的時候說到機器很重要?,F(xiàn)在的時代隨著數(shù)據(jù)量越來越大的時候,存儲越來越成為項目的中心。
    現(xiàn)在有一個問題,我們在傳統(tǒng)的機構(gòu)下集中式存儲,我們真的能不斷擴張嗎,我們都知道數(shù)據(jù)越來越大,幾十T,幾百T,上千T,集中式存儲真的可以嗎,這是很嚴重的問題。我們談的公安案例來說,他是什么狀況?他現(xiàn)在開始把一些監(jiān)控的視頻引入了我們一些分析的數(shù)據(jù)系統(tǒng),對所有人臉都會有一些比對。我們想象一下現(xiàn)在所有都要聯(lián)網(wǎng),納入一個數(shù)據(jù)庫里面,全國這么多省份、地市,他組成一個大的數(shù)據(jù)架構(gòu)下面,用什么樣的才可以做呢。真的可以做到嗎?我們談的數(shù)據(jù)不是說我增長幾倍的數(shù)據(jù),我們現(xiàn)在談?wù)撌俏业降自鲩L幾個數(shù)量級的數(shù)據(jù),兩個數(shù)量級,三個數(shù)量級,甚至更多。
    這種情況下我們提出一個疑問,集中式的存儲真的可以支持大數(shù)據(jù)時代嗎?我們都知道像有一些很多像以數(shù)據(jù)庫為中心的數(shù)據(jù)確確實實這方面提的很好,但是大量非結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)非常困難了。現(xiàn)在以X86為基礎(chǔ)的系統(tǒng)已經(jīng)以集中式的系統(tǒng),我們需要什么樣的性能的認定。我們提出我們的一個想法,大數(shù)據(jù)時代主流系統(tǒng)對存儲型服務(wù)器,這里不談所謂計算型服務(wù)器,我們只談存儲型服務(wù)器。我們認為他有三個主要的要求,第一個要求是大量直連存儲的接入需求??赡芴嗟臄?shù)據(jù)沒辦法存下去,唯一的方式就是把數(shù)據(jù)存儲起來,如果仍然采用像FC這樣的網(wǎng)絡(luò)把存儲放再一個集中的地方,這顯然不現(xiàn)實。唯一就是把每一個存儲服務(wù)器上連接。第二就是在服務(wù)器間有高互聯(lián)帶寬的需求。第三是高性能的壓縮、Hash、加密能力。后面我們會以Hadoop、Ceph、Openstack。
    這個是Hodoop一些圖,在圖上我們可以看到Hadoop結(jié)構(gòu)下有兩個主要的組成部分,一個是Namenode。由于他的數(shù)據(jù)節(jié)點本身是分離的,因此天然需要直聯(lián)存儲跟這個連接。根據(jù)他自己相關(guān)的應(yīng)用,我們都知道Hadoop會把每一份數(shù)據(jù)至少存三份正常情況下,也談到了讀寫分離。在這種情況下,在數(shù)個節(jié)點之間要有高速復制的能力,這個是通過網(wǎng)絡(luò)。我們看到了直聯(lián)存儲的需求,高性能的復制的需求。是另外一個圖,我們都知道Hodoop可以通過壓縮來解決我們對磁盤的壓力。壓縮的時候?qū)PU有影響,我們畫個天平,在天平上不斷秤來秤去,我用壓縮搞定我的網(wǎng)絡(luò),還是說要解決我CPU的性能。
    這是Ceph,這是分布式能源系統(tǒng),跟Hodoop很像,只不過他把數(shù)據(jù)節(jié)點改成OSD。他也有大量的數(shù)據(jù)需求,主要的OSD向第三個OSD復制需求。他也有直連存儲的需求,他現(xiàn)在壓縮和去除能力并不是現(xiàn)在標準的能力。OpenStack,一樣的,直連存儲的需求。這個Swift,直連存儲需求。我們認為大數(shù)據(jù)時代基本都是用這么幾個需求,一個是直連存儲需求,第二是網(wǎng)絡(luò)間高度復制需求,第三是需要壓縮的需求。壓縮是用來節(jié)省IO的。
    剛剛我們已經(jīng)談了一下在這個時代里我們談到對存儲型服務(wù)器提出有重要的需求,到底這個需求有多高?我們認為因為現(xiàn)在整個系統(tǒng)里面我們大家都知道有一個理論,系統(tǒng)你做的太快,太慢都沒有用。因為系統(tǒng)的整體速度是由他最差的那個組件來完成的。我們可以看一個結(jié)構(gòu),這是英特爾一個測試,他在利用他多核心庫的品牌支持下,在一路八核的可以形成80Mpps的轉(zhuǎn)發(fā)。我們一般使用數(shù)據(jù)是兩路,他這個是一路的數(shù)據(jù),正常我們認為40G是他標準的一個能力。
    在現(xiàn)在的CPU性能突飛猛進的時代,我們認為對存儲的單臺服務(wù)器提出一個能力需求,至少有20G,最好40G對直連存儲訪問的能力。至少20G,最好40G的壓縮、Hash、加密能力。這里有一個大的問題,CPU完成這個部分,實際上兩路系統(tǒng)足夠了。最好是有40G服務(wù)器之間的互相的網(wǎng)絡(luò)通訊能力,主要是用來做復制用的。我們認為復制的情況下,我們需要很高的系統(tǒng),對外時候我們需要不需要很高的系統(tǒng)不好說。大數(shù)據(jù)時代一臺單獨的存儲服務(wù)器達到的要求,用什么樣的硬件可以達到這樣的能力。
    這是我們談到的硬件,CPU不是很高的,兩個8核或者是10核。第二個是關(guān)鍵,2個Socket,或者是2個英特爾82599。第三是英特爾的一個Coleto的芯片。這個我認為對外提供40G或者是萬兆的接口。也就是說這是我們推薦的認為可以滿足服務(wù)器的配置。
    在這里有幾個關(guān)鍵點,第一個問題我們需要支持DPDK,現(xiàn)在X86架構(gòu)下并沒有規(guī)定只有DPDK達到最好的速度,但是DPDK是最優(yōu)秀的,他已經(jīng)開源。我們使用英特爾的CPU就是DPDK,但是DPDK有環(huán)境設(shè)備和網(wǎng)絡(luò)的抽象層。我們現(xiàn)在選用網(wǎng)卡全部都是支持英特爾DPDK的網(wǎng)卡,可以提高自己的能力。我們有很多刀片服務(wù)器,他背后的網(wǎng)卡采用方式未必是可以在DPDK工作的。第二我們提供40G的刀片間互聯(lián),可以提供10G的對外服務(wù)能力。這個是我們介紹一下芯片,這個芯片最早開始是用在路由器、防火墻這些網(wǎng)絡(luò)設(shè)備上的。后來存儲設(shè)備公司覺得這個挺好,他們也用了。
    看一下他的結(jié)構(gòu),這個芯片結(jié)構(gòu)很簡單。他的結(jié)構(gòu)里面有一個加密的協(xié)處理器,里面有一個壓縮的協(xié)處理器。關(guān)鍵問題在這,他們在這個芯片下可以提供20G的能力。他對于我們減輕負載非常有幫助。這是最高級的,它的壓縮是24G,解壓縮能夠是28G。這樣對我們在大型存儲服務(wù)器里面啟動壓縮毫無壓力。在這個芯片上提供了兩個部分,一個是軟件包解決大家訪問這個芯片的一些接口問題。他一共兩種,一種是內(nèi)核級接口,一種是用戶接口。橋片對壓縮模式的支持,文件格式有ASCII、HTML等等。
    我公司設(shè)備可以在每刀片提供2個或4個MINISAS接口用于連接SAS  Switch。目前建議最高性能配置為每刀片4個miniSAS接口,每交換機連接2個刀片,另提供4個4U45盤位置之的硬盤箱連接,這樣每刀片可以訪問90個直連硬盤,訪問直連存儲的帶寬為96G。
    中端的配置建議為每刀片配置2個minisas用于連接SAS  Switch每交換機配置6臺刀片,兩臺4U90盤位硬盤箱,這樣每刀片連接30個硬盤,提供峰值48G,平均16G的訪問存儲能力。
    為什么會采用刀片式服務(wù)器,我們不采用刀片式服務(wù)器,我們采用機架式服務(wù)器的話,如果我采用10G作為互聯(lián)接口。我們都知道40G光模塊可能也需要幾千美金,如果采用傳統(tǒng)的機架式服務(wù)器,配這么高的互聯(lián)帶寬是很困難的。采用刀片服務(wù)器,他的成本在主板上。第二是計算和存儲分離,使得直連存儲走出機箱,確保系統(tǒng)橫向擴展能力。第三利用英特爾的加密的條件,還有就是DPDK的Ready  NIC。因為存儲系統(tǒng)很多數(shù)據(jù)的需求在網(wǎng)絡(luò),他必須通過外部網(wǎng)絡(luò)才可以。我們很難想象說現(xiàn)在硬盤都是連在一起,換句話說這里頭我們不需要說硬盤支持EPK。
    下面是我們一個建議配置,我們到底有多快,到底配多少服務(wù)器,這是比較小的配置,第一個機架配置一臺刀片服務(wù)器,12個刀片。兩臺SAS  Switch,4個4U90盤位硬盤箱,兩個支持40G的交換板。
    第二個機架配置一臺刀片服務(wù)器,配置6個刀片,1臺SAS  Switch,兩個4U90潘瑋硬盤箱,兩個支持40G的交換板。每刀片配置2路10核心CPU,總共提供40個線程,主辦配置ColetoCreek,內(nèi)存128G。其中由于每刀片連接30個硬盤,使用30個線程為30個OSD  Daemon服務(wù),每個硬盤使用4G內(nèi)存進行緩存。兩臺機架間的服務(wù)器通過2×40G+8×10G以太網(wǎng)捆綁鏈路以互聯(lián),用于節(jié)點間內(nèi)部復制,總共160G帶寬。第一臺機架上的服務(wù)分為兩組,每組6個刀片,連接180個硬盤。
    這樣的配置下,按3倍復制能力,對外可以提供720T存儲。我們對存儲的訪問總帶寬為288G,對每一份數(shù)據(jù)寫入的總帶寬為96G??偣蔡峁?20G對外帶寬提供讀寫服務(wù)。節(jié)點復制總帶寬達到480G+160G。在這種切斷下我們都知道這么一個系統(tǒng)他能提供什么樣的服務(wù),寫入的速度是96G,度曲的速度相當于36G,總共720T的存儲容量。如果采用壓縮對性能毫無影響。這么一個小型系統(tǒng),總共只有18臺刀片,就可以提供3倍的復制以及非常高的讀寫速度。
    總結(jié)一下,基本上我們說用刀片服務(wù)器提供更高的40G以太網(wǎng)內(nèi)置網(wǎng)絡(luò)連接,大量的miniSAS接口提供對直連存儲的高性能連接,英特爾加密壓縮橋片提供無組塞的壓縮和支持,最后全套的DPDK提供支持。
    我提出一個新的觀點,跟各位交流的時候,我們認為在新的大數(shù)據(jù)的存儲時代,機房在數(shù)據(jù)節(jié)點之間的復制要求上40G已經(jīng)成為主流需求。這是我們的觀點,大家有沒有對這個發(fā)表看法?
    
    嘉賓:英特爾的CPU速度主流就是40G的帶寬。
    
    主持人:待會我會再提這個問題,我們思考一下。


投訴建議

提交

查看更多評論
其他資訊

查看更多

直播定檔!見證西門子與中科摩通聯(lián)手打造汽車電子智能制造新范式

光亞論壇·2024 智能產(chǎn)業(yè)聚合高峰論壇舉辦!

新訊受邀參加華為Redcap產(chǎn)業(yè)峰會,并榮獲RedCap生態(tài)合作獎!

2024年斯凱孚創(chuàng)新峰會暨新產(chǎn)品發(fā)布會召開,以創(chuàng)新產(chǎn)品矩陣重構(gòu)旋轉(zhuǎn)

禹衡光學亮相北京機床展,以創(chuàng)新助力行業(yè)發(fā)展新篇章