企業(yè)已開始熱衷于利用大數(shù)據(jù)技術(shù)收集和存儲(chǔ)海量數(shù)據(jù),并對(duì)其進(jìn)行分析。企業(yè)所收集的數(shù)據(jù)量也呈指數(shù)級(jí)增長(zhǎng),包括交易數(shù)據(jù)、位置數(shù)據(jù)、用戶交互數(shù)據(jù)、物流數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)、企業(yè)經(jīng)營(yíng)數(shù)據(jù)、硬件監(jiān)控?cái)?shù)據(jù)、應(yīng)用日志數(shù)據(jù)等。由于這些海量數(shù)據(jù)中包含大量企業(yè)或個(gè)人的敏感信息,數(shù)據(jù)安全和隱私保護(hù)的問題逐漸突顯出來。而這些問題由于大數(shù)據(jù)的三大主要特性而被進(jìn)一步放大:數(shù)據(jù)量大(Volume)、數(shù)據(jù)增長(zhǎng)快(Velocity)和數(shù)據(jù)多樣化(Variety)。
現(xiàn)在,當(dāng)我們說“大數(shù)據(jù)”的時(shí)候,已不再是單指海量的數(shù)據(jù)了,而是基礎(chǔ)設(shè)施(云服務(wù)器)、應(yīng)用、數(shù)據(jù)源、分析模型、數(shù)據(jù)存儲(chǔ)和平臺(tái)的組合,而正是這些使得大數(shù)據(jù)安全面臨著不同尋常的挑戰(zhàn)。
與傳統(tǒng)數(shù)據(jù)安全相比,大數(shù)據(jù)安全有什么不同
傳統(tǒng)數(shù)據(jù)安全技術(shù)的概念是基于保護(hù)單節(jié)點(diǎn)實(shí)例的安全,例如一臺(tái)數(shù)據(jù)庫(kù)或服務(wù)器,而不是像Hadoop這樣的分布式計(jì)算環(huán)境。傳統(tǒng)安全技術(shù)在這種大型的分布式環(huán)境中不再有效。另外,在大規(guī)模的Hadoop集群中,各服務(wù)器和組件的安全配置出現(xiàn)不一致的機(jī)率將大大增加,這將導(dǎo)致更多的安全漏洞產(chǎn)生。
大數(shù)據(jù)平臺(tái)存儲(chǔ)著各種各樣的數(shù)據(jù),每一種數(shù)據(jù)源都可能需要有其相應(yīng)的訪問限制和安全策略。而當(dāng)需要整合不同數(shù)據(jù)源時(shí),就變得更加難以平衡對(duì)數(shù)據(jù)的安全策略的應(yīng)用。同時(shí),快速增長(zhǎng)的海量數(shù)據(jù)使得大數(shù)據(jù)平臺(tái)中的敏感信息和個(gè)人隱私信息無處不在,準(zhǔn)確發(fā)現(xiàn)和定位敏感信息并制定針對(duì)性的訪問控制策略變得愈加困難,而對(duì)敏感信息的訪問的實(shí)時(shí)監(jiān)控也是保障大數(shù)據(jù)安全的重要任務(wù)之一。
最后,大數(shù)據(jù)技術(shù)很少單獨(dú)使用Hadoop,而是會(huì)結(jié)合生態(tài)系統(tǒng)中的其它技術(shù)組件如HBase,Spark,Impala,Hive,Pig等對(duì)數(shù)據(jù)進(jìn)行抽取、存儲(chǔ)、處理、計(jì)算等。這些技術(shù)使得大數(shù)據(jù)可被訪問和利用,但基本都缺乏企業(yè)級(jí)的安全特性。以上從平臺(tái)、數(shù)據(jù)、技術(shù)視角對(duì)大數(shù)據(jù)安全與傳統(tǒng)數(shù)據(jù)安全進(jìn)行了簡(jiǎn)單的分析,傳統(tǒng)安全工具沒有為數(shù)據(jù)多樣化、數(shù)據(jù)處理及Hadoop的分布式特性而改進(jìn),不再足以能保證大數(shù)據(jù)的安全。
如何建立完善的大數(shù)據(jù)安全體系
面對(duì)復(fù)雜的大數(shù)據(jù)安全環(huán)境,需要從四個(gè)層面綜合考慮以建立全方位的大數(shù)據(jù)安全體系:邊界安全、訪問控制和授權(quán)、數(shù)據(jù)保護(hù)、審計(jì)和監(jiān)控。
邊界安全:主要包含網(wǎng)絡(luò)安全和身份認(rèn)證。防護(hù)對(duì)系統(tǒng)及其數(shù)據(jù)和服務(wù)的訪問,身份認(rèn)證確保用戶的真實(shí)性及有效性。Hadoop及其生態(tài)系統(tǒng)中的其它組件都支持使用Kerberos進(jìn)行用戶身份驗(yàn)證。
訪問控制和授權(quán):通過對(duì)用戶的授權(quán)實(shí)現(xiàn)對(duì)數(shù)據(jù)、資源和服務(wù)的訪問管理及權(quán)限控制。Hadoop和HBase都支持ACL,同時(shí)也實(shí)現(xiàn)了RBAC(基于角色的訪問控制)模型,更細(xì)粒度的ABAC(Attibute Based Access Control)在HBase較新的版本中也可通過訪問控制標(biāo)簽和可見性標(biāo)簽的形式實(shí)現(xiàn)。
數(shù)據(jù)保護(hù):通過數(shù)據(jù)加密和脫敏兩種主要方式從數(shù)據(jù)層面保護(hù)敏感信息不被泄露。數(shù)據(jù)加密包括在傳輸過程中的加密和存儲(chǔ)加密。傳輸過程中的加密依賴于網(wǎng)絡(luò)安全協(xié)議而存儲(chǔ)加密可通過相關(guān)加密算法和密鑰對(duì)數(shù)據(jù)進(jìn)行加密存儲(chǔ)。數(shù)據(jù)脫敏是比加密較為折中的辦法,對(duì)于大數(shù)據(jù)時(shí)代,該方法將更被更為廣泛的采用。因?yàn)槭占暮A繑?shù)據(jù)需要相對(duì)開放的共享給內(nèi)部不同團(tuán)隊(duì)或外部機(jī)構(gòu)使用,才能發(fā)揮大數(shù)據(jù)的價(jià)值。對(duì)于敏感信息部分可通過脫敏的方式進(jìn)行處理以保障信息安全。
審計(jì)和監(jiān)控:實(shí)時(shí)地監(jiān)控和審計(jì)可管理數(shù)據(jù)安全合規(guī)性和安全回溯、安全取證等。
如何設(shè)計(jì)大數(shù)據(jù)安全框架
基于以上四層的安全體系,結(jié)合大數(shù)據(jù)平臺(tái)的特性,企業(yè)在實(shí)踐大數(shù)據(jù)平臺(tái)安全化時(shí),需要有更詳細(xì)的架構(gòu)設(shè)計(jì),四層安全體系對(duì)應(yīng)在實(shí)際環(huán)境中,應(yīng)是以數(shù)據(jù)為中心,建立完善的管理制度,先治理好大數(shù)據(jù),再?gòu)脑L問控制和數(shù)據(jù)保護(hù)層面加強(qiáng)對(duì)數(shù)據(jù)使用的安全防護(hù),最后從網(wǎng)絡(luò)和基礎(chǔ)層加固平臺(tái)的安全部署。因此,大數(shù)據(jù)安全框架需包含以下5個(gè)核心模塊: 數(shù)據(jù)管理、身份和訪問管理、數(shù)據(jù)保護(hù)、網(wǎng)絡(luò)安全、基礎(chǔ)安全。
(一)數(shù)據(jù)管理
企業(yè)實(shí)施數(shù)據(jù)安全的首要任務(wù)是先管理好數(shù)據(jù),根據(jù)業(yè)務(wù)要求、合規(guī)性、安全策略及數(shù)據(jù)的敏感性,關(guān)鍵性和關(guān)聯(lián)風(fēng)險(xiǎn)對(duì)數(shù)據(jù)進(jìn)行分類分級(jí)管理,有助于對(duì)數(shù)據(jù)保護(hù)的基準(zhǔn)安全控制做出合理的決策。
從大數(shù)據(jù)特性層面對(duì)數(shù)據(jù)進(jìn)行標(biāo)記(例如分析類型、處理方式、數(shù)據(jù)時(shí)效性、數(shù)據(jù)類型、數(shù)據(jù)格式 、數(shù)據(jù)源等維度),就知道數(shù)據(jù)是如何進(jìn)出大數(shù)據(jù)平臺(tái),將會(huì)被如何使用,會(huì)被誰使用,數(shù)據(jù)是如何存儲(chǔ)的等等,這些都有助于數(shù)據(jù)發(fā)現(xiàn)的管理和對(duì)數(shù)據(jù)訪問控制制定相應(yīng)的策略。
最后,如果缺乏掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中存在于哪里的意識(shí),這將無疑是把數(shù)據(jù)暴露于風(fēng)險(xiǎn)之下。所以,掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺(tái)中分布情況,并能自動(dòng)地增量式地發(fā)現(xiàn)找到敏感數(shù)據(jù),并監(jiān)控其使用情況,是否受到保護(hù)是能否做到全面保護(hù)數(shù)據(jù)安全的關(guān)鍵。
(二)身份認(rèn)證和訪問控制
身份認(rèn)證是防護(hù)數(shù)據(jù)安全的第一道關(guān)卡,通過身份認(rèn)證確保訪問大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)、資源和服務(wù)的用戶是安全的,大數(shù)據(jù)生態(tài)系統(tǒng)中從Hadoop到HBase、Hive、Pig、Impala、Spark等幾乎都支持利用Kerberos進(jìn)行身份認(rèn)證。
Kerberos也可以和企業(yè)的AD/LDAP結(jié)合以快速建立密鑰分發(fā)中心,而無需大數(shù)據(jù)平臺(tái)用戶重新建立用戶組、角色和密鑰等。用戶通過身份認(rèn)證后可獲得訪問大數(shù)據(jù)平臺(tái)的資格,為進(jìn)一步控制用戶對(duì)資源的訪問權(quán)限,需要通過授權(quán)機(jī)制來管理不同用戶對(duì)不同資源的訪問許可。
Hadoop和HBase及其它組件都在一定程度上支持對(duì)訪問的控制,RBAC和ABAC是兩個(gè)不同粒度的訪問控制模型,前者是基于角色來進(jìn)行訪問控制,后者是更為細(xì)粒度的控制,可控制到被訪問對(duì)象的字段級(jí)別。在制定訪問控制策略時(shí),應(yīng)依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護(hù)策略、數(shù)據(jù)使用場(chǎng)景等針對(duì)不同數(shù)據(jù)、不同業(yè)務(wù)需求制定相應(yīng)的訪問限制規(guī)則,高效利用數(shù)據(jù),發(fā)揮大數(shù)據(jù)價(jià)值是企業(yè)的最終目的。
(三)數(shù)據(jù)保護(hù)
如果說身份認(rèn)證、授權(quán)和訪問控制是確保了對(duì)數(shù)據(jù)訪問的對(duì)象的防護(hù)和控制,數(shù)據(jù)保護(hù)技術(shù)則是從根源層保護(hù)信息安全的最重要和最有效的手段。通過數(shù)據(jù)保護(hù)技術(shù),對(duì)大數(shù)據(jù)的開放共享、發(fā)布、最大化利用等都會(huì)有著最直接的積極作用。
數(shù)據(jù)保護(hù)技術(shù)的作用不僅局限于企業(yè)內(nèi)部,它是確保整個(gè)大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展的最重要保證。數(shù)據(jù)保護(hù)技術(shù)通過對(duì)數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,可讓處理后的數(shù)據(jù)到達(dá)安全交易、開放共享的目的。
而對(duì)于企業(yè)內(nèi)部,針對(duì)脫敏后的數(shù)據(jù),不需再設(shè)定復(fù)雜的訪問控制限制,可讓更多的分析應(yīng)用更高效地實(shí)施并優(yōu)化開發(fā)項(xiàng)目,讓大數(shù)據(jù)得到更充分的利用同時(shí),也確保遵從行業(yè)/監(jiān)管數(shù)據(jù)隱私法令和法規(guī)。
(四)網(wǎng)絡(luò)安全
大數(shù)據(jù)的網(wǎng)絡(luò)安全通常是指通過客戶端訪問大數(shù)據(jù)平臺(tái)的連接和大數(shù)據(jù)平臺(tái)中服務(wù)器節(jié)點(diǎn)之間的網(wǎng)絡(luò)通信安全。 為保證數(shù)據(jù)在傳輸過程中的安全性,節(jié)點(diǎn)之間及客戶端與服務(wù)器之間的通信都需要進(jìn)行加密,不同的通信使用不同的加密方式,Hadoop平臺(tái)支持RPC加密,HDFS數(shù)據(jù)傳輸加密和HTTP通信的加密。
除了對(duì)網(wǎng)絡(luò)通信進(jìn)行加密設(shè)置,還可通過使用網(wǎng)關(guān)服務(wù)器隔離客戶端與大數(shù)據(jù)平臺(tái)的直接訪問來進(jìn)一步升級(jí)網(wǎng)絡(luò)安全。網(wǎng)關(guān)服務(wù)器部署在大數(shù)據(jù)平臺(tái)和企業(yè)用戶網(wǎng)絡(luò)域之間,用戶通過登錄網(wǎng)關(guān)服務(wù)器來驗(yàn)證身份,并由網(wǎng)關(guān)服務(wù)代理用戶對(duì)大數(shù)據(jù)平臺(tái)的訪問,同時(shí),該服務(wù)器還可用來提供訪問控制、策略管理。用戶通過登錄到網(wǎng)關(guān)服務(wù)器來執(zhí)行對(duì)大數(shù)據(jù)平臺(tái)的操作,所有的客戶端包括Hive,Pig,Oozie等都可安裝在這臺(tái)網(wǎng)關(guān)服務(wù)器上,這樣用戶就不必登錄到大數(shù)據(jù)平臺(tái)中的服務(wù)器節(jié)點(diǎn),從而保護(hù)大數(shù)據(jù)平臺(tái)不會(huì)受到非法訪問。
(五)基礎(chǔ)安全
前面我們談到了通過各種方式來保證大數(shù)據(jù)平臺(tái)和安全性,包括身份認(rèn)證、授權(quán)、訪問控制、數(shù)據(jù)保護(hù)及網(wǎng)絡(luò)通信安全。但大數(shù)據(jù)平臺(tái)仍然有可能會(huì)受到非法訪問和特權(quán)用戶的訪問。為確保合規(guī)性的需要,我們需要對(duì)大數(shù)據(jù)平臺(tái)的一切活動(dòng)進(jìn)行審計(jì)和監(jiān)控并生成告警信息,也即是安全事故和事件監(jiān)控(SIEM)系統(tǒng)。SIEM系統(tǒng)負(fù)責(zé)對(duì)大數(shù)據(jù)平臺(tái)中任何可疑的活動(dòng)進(jìn)行收集,監(jiān)控,分析和生成各種安全報(bào)告。
以下是大數(shù)據(jù)平臺(tái)中需要被監(jiān)控的事件以用來分析識(shí)別安全事件:用戶登錄和身份驗(yàn)證事件、HDFS操作、授權(quán)錯(cuò)誤、敏感數(shù)據(jù)操作、MapReduce任務(wù)、通過各種客戶端的訪問如Oozie,HUE等以及異常事件。只有全面的收集在大數(shù)據(jù)平臺(tái)中的一切活動(dòng),才有機(jī)會(huì)捕捉可能會(huì)發(fā)生的安全事故及進(jìn)行事后分析時(shí)有機(jī)會(huì)進(jìn)行回溯分析,追蹤事故根源。
來源:機(jī)房360
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機(jī)柜租用 石家莊機(jī)房