多模數據處理破繭成蝶 大數據“卡脖子”成為過去!

在這場出人意料的新冠疫情之下,中國的大數據技術展現(xiàn)了驚人的威力:

追蹤流動人口,極速公布各地疫情報告,覆蓋所有人群的健康碼大數據服務,電商數據調動醫(yī)療資源,AI+大數據助力醫(yī)藥研發(fā)······

不管是傳統(tǒng)的結構化數據,如人員信息、醫(yī)院等醫(yī)療資源信息等,還是復雜的非結構化數據,如地理位置數據、圖像數據、文本數據、語音數據等,各個層面的海量數據在客觀、透明的基礎上,以不同的技術進行處理、分析,助力全民戰(zhàn)疫。

這些應用的背后是中國大數據技術與應用的進步,大數據基礎軟件自主研發(fā)成果不斷,大數據軟件國產化替代加速,大數據上云向用戶提供按需服務,金融、航空航天、新零售等行業(yè)大數據應用卓有成效。

而在數字化商業(yè)世界中,新的時代會產生新的機會,新的技術會創(chuàng)造更廣闊的空間。

隨著數據量和數據種類的不斷增多,由單一一個數據平臺處理一類數據的應用雖然能力不斷完善,但是還是難以滿足用戶用一個平臺處理不同類型數據模型的需求。

人們也期望用一個統(tǒng)一的平臺,處理不同類型的數據,提高數據處理和分析的效率,降低成本。

01

用戶呼喚多模型數據處理平臺

大數據平臺是囊括大數據存儲、處理和數據應用分析的集成化數據開發(fā)平臺。建設這樣一個大數據平臺必然會面臨很多問題:如何管理一個單體大集群;多源數據如何錄入;當數據接入之后,如何高效的存儲和查詢這些數據,如何管理這些數據,避免形成數據沼澤;如何保障數據安全,如何將數據展現(xiàn)給用戶等。這些基本上就是一個企業(yè)級大數據平臺需要具備的能力。

多模數據處理破繭成蝶 大數據“卡脖子”成為過去!

IDC公布的2016~2020年生產的數據量與增長率

從2008年誕生起,大數據平臺從落地上看就是一組技術或者工具的組合,是以海量數據存儲、計算及不間斷流數據實時計算等場景為主的基礎設施。

而開源社區(qū)其實已經發(fā)展出了多種組件,可以供市場組合一套大數據平臺.但是由于涉及到公司內部的業(yè)務場景以及模式,以及很難有非常全面掌握這些工具的人才,所以這些工具組合可能不完全適用。

多模數據處理破繭成蝶 大數據“卡脖子”成為過去!

開源的大數據平臺工具

到目前為止,對于一些單一的典型場景,市場上出現(xiàn)不同的產品,有了知名的解決方案,解決數據的多樣性。

例如,結構化數據使用Hive,動態(tài)列模型使用Bigtable、Hbase,應用于數據存儲的文檔數據庫MongDB,專注于滿足各類復雜搜索需求的ElasticSearch,常被應用于會話緩存的高速NoSQL數據庫Redis,圖數據庫Neo4J,以及由實時計算引擎正成為通用大數據引擎的Flink等。

但是這些產品都是孤立的,每一個或者類只能解決一類問題。當用戶的數據有很多類型,就不得不采用不同種類的數據庫,并把它混在一起使用。

接受記者采訪的一位不愿署名的專家認為,新的數據類型,傳統(tǒng)關系結構數據、半結構化、非結構化數據,以及新的業(yè)態(tài)(如IOT)、新的數據來源(外部爬蟲數據)、新的數據格式(如社交、游戲、地理)等多元化的數據出現(xiàn),都對多模異構數據處理產生訴求。

接受記者采訪的星環(huán)研發(fā)總監(jiān)呂程認為,由于各個數據庫各自為政,應用開發(fā)商或客戶不得不自己架設一層,來解決數據在不同庫間的導入導出、數據在不同庫中的一致性、綜合集群整體運維等一系列問題。因此,混合使用的方式操作不便、運維復雜的問題會日益凸顯。

今天,客戶對這種架構越來越難容忍,希望能用一套大數據平臺,解決各種復雜的數據結構問題。

星環(huán)科技創(chuàng)始人、CEO孫元浩接受中國軟件網記者采訪時認為,目前,大數據行業(yè)一個明顯的發(fā)展趨勢就是推出一個統(tǒng)一的大數據平臺,能夠處理多種數據模型,能夠提供統(tǒng)一的編程語言、統(tǒng)一的計算引擎,使用統(tǒng)一的存儲管理系統(tǒng)、統(tǒng)一的資源調度系統(tǒng),能夠支持多種不同的數據模型。

孫元浩說:“星環(huán)科技把這個統(tǒng)一的大數據平臺,稱為多模型異構的數據處理平臺。”

02

兩條發(fā)展路徑,兩種不同結果

在大數據軟件發(fā)展中,技術路線發(fā)展演繹精彩紛呈,令人目不暇接。畢竟這是一個巨大的市場機會,創(chuàng)造天量的市場機會,也會誕生像微軟、谷歌、AWS一樣的行業(yè)巨人。

雖然專家們將大數據的技術路線大體上分為Hadoop路線、Spark路線、自主研發(fā)路線、以及上一代MPP架構沿用路線等,但是記者認為,在發(fā)展多模型大數據平臺方面,幾本上可以分為兩大技術路線,一是開源路線,另一個是自主研發(fā)路線。

不管是那種技術路線,一些數據庫或大數據廠商在多模型數據處理上都提出自己的“行業(yè)解決方案”,一些則推出自己的“數據云平臺”等。雖然各種描述五花八門,但其解決的核心問題和其核心架構,還是解決異構數據庫間的數據同步等底層問題,使客戶從這些底層問題中解放出來,像使用單一數據平臺一樣簡便易用,從而為客戶創(chuàng)造價值。

開源路線的代表就是Hadoop和Spark。

提起大數據,依然不能不提Hadoop。因為Hadoop讓海量的數據能分布存儲,并能分布的存取與處理。過去Hadoop幾乎成了大數據的代名詞。

專家認為,作為大數據基礎軟件的一大技術路線,基于開源Hadoop發(fā)展的最大優(yōu)勢就是可處理的數據量龐大且運行穩(wěn)定。在節(jié)點資源不增加的情況下,運行速度雖然不占優(yōu)勢,但卻十分穩(wěn)定。既是優(yōu)勢也是劣勢,Hadoop在批處理方面的強大無法掩蓋其在交互式分析和流處理方面的缺憾。

在大數據發(fā)展中,開源大數據平臺Hadoop占據至關重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車。

2018年,Cloudera和Hortonworks因為連連虧損,兩大巨頭公司宣布平等合并,Cloudera以股票方式收購Hortonworks。但合并后公司股價繼續(xù)下跌。

2019年6月,MapR就預告公司營收遇到困難,正在尋求解困的措施。隨后的8月6日,惠普企業(yè)HPE宣布收購MapR的資產,包括MapR的技術、知識產權、人工智能以及數據管理方面的專業(yè)經驗。

Spark技術的代表企業(yè)是Databricks。Databricks公司是由加州大學伯克利分校負責開發(fā)流行的開源Apache Spark數據處理框架的團隊創(chuàng)建的。該公司幫助大企業(yè)快速處理、整合和分析大量數據。它的統(tǒng)一分析平臺旨在孤立的數據存儲系統(tǒng)之間建立數字管道,并幫助工程師和數據科學家更好地溝通。

Databricks公司業(yè)務方向已經轉移到“大數據分析和人工智能解決方案”?,F(xiàn)在行業(yè)內更多的將其看成一家AI公司。

針對多模型數據處理,開源路線方面的舉措是推出多模型數據庫,當然這些數據庫也是開源的。

ArangoDB是一個開源的、原生的多模型NoSQL數據庫,同時支持Doc、Graph、K/V三種存儲,它有適用于全部三種數據模型的統(tǒng)一內核和統(tǒng)一數據庫查詢語言—AQL (ArangoDB Query Language),非常適用于搭建高性能的應用和服務。

ArangoDB還允許在單個查詢中混合使用三種數據模型。因此,用戶可以在單次查詢過程中混合使用多種數據模型,而無需在不同數據模型間相互“切換”,也不需要執(zhí)行數據傳輸過程,并且這三種數據模型均支持水平擴展。

2018年初,ArangoDB完成1156萬美元融資,深受投資人追捧。2020年初,ArangoDB 3.6 發(fā)布。

多模數據處理破繭成蝶 大數據“卡脖子”成為過去!

多模數據庫ArangoDB的優(yōu)勢

不過ArangoDB的優(yōu)勢是一個內核、一個查詢語言、支持三種數據模型。其缺點也是僅支持三種數據模型,應用受到了限制。

對于一些單一的典型場景,市場上出現(xiàn)的不同產品和知名的解決方案大都是開源系統(tǒng),所以對多模型數據支持的產品很難放棄自身優(yōu)勢的開源項目,而是在原數據模型支持基礎上的擴充,而更多的是新的開源項目。

另一條技術路線就是以星環(huán)科技為代表的自主開發(fā)。

中國用戶需要處理的數據量遠超過之前在其他國家的需求。同時中國用戶在應用場景方面有著非常強的創(chuàng)新意識,需要處理的場景復雜度也超過了其他國家用戶。

星環(huán)科技就是專注解決用戶的這些難點,走出了一條獨特的自主研發(fā)技術創(chuàng)新之路。星環(huán)的產品體系已經從最早的分析型數據庫擴展至閃存加速分析型數據庫、實時計算、全文檢索數據庫、圖數據庫、Bigtable數據庫、交易數據庫、基于容器技術的數據云等,從底層資源調度到上面的計算引擎,形成了一條有別于Hadoop或Spark、而具有星環(huán)特色的技術路線,實現(xiàn)了多個領域的技術突破。

Transwarp Data Hub(TDH)是星環(huán)科技推出的企業(yè)級大數據平臺,經過7年的快速演進,不斷發(fā)展成熟,在郵政、交通、金融、政府等行業(yè)獲得了大量的部署實施經驗,同時向新生的大數據技術領域進行的拓展和探索。

5月15日,星環(huán)科技推出一站式大數據平臺TDH 7.0版本,主打一站式多模異構數據處理,打破了行業(yè)內普遍存在的不同數據庫產品切換的不便利,通過一個平臺處理多種數據模型,讓用戶無需維護多種數據庫成為現(xiàn)實。

呂程告訴中國軟件網記者,作為一個多模型的數據處理平臺,TDH 7.0可以提供統(tǒng)一的數據操作/查詢語言SQL、統(tǒng)一的數據計算引擎、統(tǒng)一的分布式存儲管理系統(tǒng)、統(tǒng)一的資源管理框架,滿足利用一個多模異構平臺,處理多種數據的需求。

多模數據處理破繭成蝶 大數據“卡脖子”成為過去!

星環(huán)的一站式多模處理平臺示意

同時,TDH 7.0版本一站式多模異構數據處理性能亮眼,徹底解決大數據發(fā)展的一大瓶頸。據介紹,TDH從上而下劃分為五個層次:

最上層是SQL層,開發(fā)了統(tǒng)一的SQL引擎,兼容各種不同的SQL“方言”;

計算層,開發(fā)了統(tǒng)一的計算引擎,進行統(tǒng)一的計算任務優(yōu)化和分發(fā);

其下的存儲模型層,TDH一個平臺支持七種不同的存儲模型,適用于不同的應用場景,包括圖存儲Graph Storage、文檔存儲Document Storage、全文檢索 Full-text Search、鍵值存儲 Key-Value Storage、行列混合存儲 Row-Columnar Storage、時空地理存儲 Sequential Geospatial Storage、非結構化對象存儲 Unstructured Object Storage。

存儲管理層,開發(fā)了統(tǒng)一的存儲管理引擎,提供數據塊分布管理、數據多副本一致性管理、文件服務管理等功能。

最底層資源調度層,開發(fā)了統(tǒng)一的資源調度框架,通過容器化編排,統(tǒng)一調度計算、存儲、網絡資源。

統(tǒng)一的數據處理平臺幾大的優(yōu)勢:

多模型的數據處理平臺的核心是對外提供統(tǒng)一的SQL編程接口、統(tǒng)一的計算引擎,以及統(tǒng)一的綜合式的存儲管理系統(tǒng)和統(tǒng)一的銷售框架。因此,星環(huán)TDH 7.0的優(yōu)勢體現(xiàn)在這幾大特性的統(tǒng)一和融合上。

TDH 7.0統(tǒng)一的數據處理平臺支持超過7種不同的數據模型,支持結構化的數據和非結構化數據,支持KeyValue介質存儲、全行搜索、排索引、圖存儲、圖數據庫、存儲文檔,也能夠存儲時空數據。這是TDH 7.0的第一大優(yōu)勢。

星環(huán)科技第一家提供了一個能夠橫跨多種數據模型的統(tǒng)一的計算引擎。雖然有不少公司也在嘗試提供一個標準的數據接口,但是由于底層是不同的數據庫,沒用統(tǒng)一的計算引擎,雖然有統(tǒng)一的SQL接口,但是很難把不同的接口靜態(tài)的路由到功能數據庫上。因此,需要一個動態(tài)的計算引擎來動態(tài)地進行接口的調度,進行執(zhí)行計劃的統(tǒng)一的管理。

同時在星環(huán)科技的TDH 7.0也提出了一個統(tǒng)一的分布式管理系統(tǒng),是實現(xiàn)數據分布管理以及數據一致性的數據管理系統(tǒng),比過往使用HTVS效率更高、一致性更強。

在同一個平臺上可以將一份數據存儲成多種模型,用戶在應用發(fā)生變化時能夠自行地采用最佳的倉儲模型來響應查詢需求,運行效率會更高。同時因為一個平臺處理多種數據模型,整運維成本、管理成本都會降低。

孫元浩說,未來的數據平臺都應該是多模型的,但是用戶使用起來更應該是像使用一個數據庫一樣使用。

匿名的受訪專家認為,星環(huán)的方案,不再沿用傳統(tǒng)的數據匯聚方式,而是使用更為輕量化的模式,利用分布式的存儲管理系統(tǒng),達到邏輯上的統(tǒng)一存儲,再其上構建統(tǒng)一的計算能力。這一變革,無疑對多模異構數據的使用帶來更大的便捷性。

采用TDH 7.0 多模型數據處理平臺的某個用戶表示,應用常常需要對一份數據進行多種不同模型分析,如分析查詢、模糊匹配查詢、關系推理查詢等。TDH可以針對不同需求采用多種最優(yōu)存儲模型,如分析查詢采用行列混合存儲,模糊匹配查詢采用全文檢索,關系推理查詢采用圖數據存儲。多種模式的存儲,可以使各場景下的查詢分析性能都得到極大優(yōu)化。

在傳統(tǒng)混合模型中,不同模型數據間做關聯(lián)分析,需要進行跨數據庫的數據導入導出,十分復雜。而采用了統(tǒng)一的數據管理,一個簡單的SQL語句就可以直接進行關聯(lián)查詢,如同操作同一個數據庫一般,使應用開發(fā)變得十分便捷。

在傳統(tǒng)混合模型中,不同模型需要運維不同數據庫。特別當同一份數據存儲于多數據庫時,數據一致性成為極大挑戰(zhàn)。此外,數據總體情況的運維,需要各個運維子系統(tǒng)匯總并二次開發(fā),運維成本巨大。而采用了統(tǒng)一的數據管理,在產品底層服務中直接保障數據一致性,同時對多模型的數據進行整體運維,是天然的一體化系統(tǒng)。

03

大數據替代即將來臨

“卡脖子”會成為過去?

多模型數據處理平臺的進步只是大數據技術發(fā)展的一個縮影。

呂程認為,多模異構數據平臺未來的發(fā)展方向之一是積極推動主要服務、組件、模塊的標準化。由于數據相關技術異常復雜,技術日新月異,各類基礎服務、組件、模塊要做到面面俱到,是異常困難的。而通過建設一定的標準,設立一定的規(guī)范,讓更多的企業(yè)參與其中,無論是開源社區(qū),還是閉源廠商,都能貢獻自己的力量,創(chuàng)造自己的價值。

第二,構建一個良性的生態(tài)。除了最基本的作用以外,平臺還應當能支撐更多的上層應用,在不同行業(yè)、不同企業(yè)、不同業(yè)務中創(chuàng)造更高價值。這就對基礎數據平臺的生態(tài)提出了巨大的挑戰(zhàn),越來越多的應用,越來越多的廠商適配的接入,就會創(chuàng)造一個更加良性循環(huán)的生態(tài),從而促進整個產品和平臺的繁榮。

第三,堅持新技術探索。面對現(xiàn)在日益復雜場景,不能停留在解決的單點問題。在日益凸顯的復雜場景面前,不同技術的組合是否能創(chuàng)造出新價值呢?是否需要新技術來解決復雜場景呢?這些地方是很值得深入研究和發(fā)展探索的,如現(xiàn)在討論比較多的批流一體,又如檢索和分析同時使用等。

多模數據處理破繭成蝶 大數據“卡脖子”成為過去!

開源路線與自主研發(fā)路線正在演繹另一場大數據領域的國產化技術替代。

近年來,大數據產業(yè)飛速發(fā)展,應用層和基礎層軟件不斷進步,但是實施復雜、技術進步步伐遲滯的Hadoop卻不斷遭遇挑戰(zhàn),各種替代技術不斷涌現(xiàn)。

因此,大數據領域因為開源技術的復雜性日益增加,用戶采用商用系統(tǒng)或者云服務商的技術方案成為一大方向。

Hadoop技術上碰到了難以逾越的挑戰(zhàn)。Hadoop是基于15年前的技術環(huán)境設計的,如今的硬件技術環(huán)境發(fā)生根本性變化,網絡普及萬兆,存儲每秒鐘能夠做上百萬次操作,當時的架構已經完全跟不上現(xiàn)在硬件的發(fā)展。

另一個原因,Hadoop軟件是仿造谷歌的系統(tǒng)來構建的,最初的目標是用于互聯(lián)網公司的日志處理和營銷推廣等場景。當這個技術應用到各行各業(yè)時,就發(fā)現(xiàn)它在功能缺失、一致性和可靠性、高性能并發(fā)等問題上的局限性,無法突破,甚至有分析機構說Hadoop已死。

以前因為有開源軟件,大家常常有一種感覺,既然有免費的,就用免費的就好了。但是后面慢慢逐漸認識到這種模式的問題,想使用開源Hadoop,就需要大量專業(yè)技術人員,要知道Hadoop是個軟件棧,里面有上百款的組件,如何建成大數據平臺,并維護平臺成為一大挑戰(zhàn)。

很多云服務商會推出自己研發(fā)的產品。目前,大數據上云,很多云服務商會基于開源軟件和自己研發(fā)的系統(tǒng),為用戶建立大數據平臺,支持用戶大數據應用開發(fā)與維護。目前,它正成為一大方向。

很多大數據專業(yè)企業(yè)堅持自主研發(fā)路線。星環(huán)科技CEO孫元浩表示,星環(huán)科技堅持大數據基礎軟件的完全自主研發(fā),原創(chuàng)了一條完全自研的技術路線。

大數據領域另一個替換則是國產大數據基礎軟件產品在不同領域開始替換甲骨文、IBM等國外軟件。國內眾多大數據平臺已經在眾多行業(yè)開始替代包括甲骨文、IBM,甚至一些國外Hadoop供應商的產品。

記者獲悉,近日中興通訊簽約國內大數據企業(yè)永洪科技,利用后者提供的擁有自主知識產權的一站式大數據平臺與可視化分析方案,實現(xiàn)從企業(yè)管理到客戶經營的精細化運營,提升企業(yè)運營效率,打造合作共贏的產業(yè)生態(tài)環(huán)境。

接受記者采訪的永洪科技市場總監(jiān)劉東旭說,國產化替代已經從軟硬件國產化的“去IOE”(IBM、Oracle、EMC)延伸到頂層設計咨詢國產化的“去SOA”(SAP、Oracle、Accenture),保證全方位的信息安全。大數據領域的國產化替代會快得多。

孫元浩表示,替代國外產品主要還是技術革命造成的,不光在中國發(fā)生,在美國創(chuàng)新型的大數據基礎軟件也開始替代傳統(tǒng)企業(yè)的數據庫等產品,面對日益增加的數據量,傳統(tǒng)軟件的處理性能已經無法滿足用戶需求,分布式技術帶來的性能飛躍是客戶進行替換的一個重要動力。在新的技術領域,星環(huán)科技走得會更快一點,替代成功的項目更多一點。

另外,國外的大數據軟件在中國“水土不服”。因為國內的數據體量通常比國外大一到兩個數量級,數據應用也更為復雜。1TB和100TB在數據分析是完全不同的兩件事,而由于國外并沒有這樣的應用場景,所以國外的大數據軟件在處理這類的問題時天生不足。國產軟件在設計時就會充分的考慮這些情況。

帆軟市場經理丁明浩告訴記者,大數據國產化替代最直接的效果是降低采購成本和運營維護成本,同時國內公司能定制化地為企業(yè)解決運營管理線上化進程中遇到的各種問題。

工業(yè)和信息化部新聞發(fā)言人、信息技術發(fā)展司司長謝少鋒介紹,基礎軟硬件方面,將實施國家軟件重大工程,集中力量解決關鍵軟件的“卡脖子”問題,著力推動工業(yè)技術的軟件化,加快推廣軟件定義網絡的應用。

而大數據領域的替代,正在從軟件、應用等不同領域開展,大數據領域的“卡脖子”就成為過去。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )