如(rú)何做好(hǎo)(hǎo)大型數據中心的運維
作(zuò)者:晨光  來(lái)源:網絡  發表時(shí)間(jiān):2016-1-29  點擊:3387

       什(shén)麽叫數據中心?維基百科給出的定義是“數據中心是一(yī)整套複雜的設施。它不僅僅包括計算(suàn)機系統和其它與之配套的設備(例如(rú)通信和存儲系統),還包含冗餘的 數據通信連接、環境控制設備、監控設備以及各種安全裝置”。在雲大行其道的今天,随着數據中心建設規模的不斷擴大,新(xīn)技術的層出不窮,數據中心變得越來(lái)越 複雜。大型數據中心往往是由很多規模龐大的集群系統組成,其運維工作(zuò)需要具備方方面面的知識,包括硬件、網絡、服務(wù)器(qì)、存儲、安全以及業務(wù)上(shàng)的東西(xī),需要 上(shàng)下(xià)打通地去做運維工作(zuò)。

      當一(yī)個(gè)數據中心的規模非常大,面臨的挑戰和問題也(yě)比較超前,很多在小環境小體(tǐ)系下(xià)不是問題的問題在這(zhè)樣的規模下(xià)也(yě)就(jiù)凸顯出來(lái)了(le),所以要做好(hǎo)(hǎo)大型數據中心的 運維工作(zuò),對整個(gè)數據中心技術體(tǐ)系的系統學習就(jiù)要花費比較長的時(shí)間(jiān),隻有對這(zhè)個(gè)數據中心整體(tǐ)非常了(le)解,才能(néng)有針對性地制定一(yī)些(xiē)運維方案,甚至可以二次開發 一(yī)些(xiē)監控運維軟件,對整個(gè)數據中心進行有效管理(lǐ)與監控,提升整個(gè)數據中心的運行效率、減少故障的發生(shēng),從而将運維工作(zuò)推向新(xīn)的高度。一(yī)個(gè)大型的數據中心内 部往往都包含了(le)很多小系統,運維工作(zuò)都是圍繞着這(zhè)些(xiē)具體(tǐ)的應用系統展開的,具體(tǐ)的可以分(fēn)為(wèi)基礎運維管理(lǐ)、日常業務(wù)運維、網絡、服務(wù)器(qì)、存儲、安全六大部 分(fēn),本文就(jiù)來(lái)說(shuō)一(yī)說(shuō)一(yī)般大型的數據中心應該具備的哪些(xiē)運維方法和能(néng)力。

       首先從數據中心的基礎運維管理(lǐ)方面來(lái)說(shuō),則主要有硬件配置管理(lǐ)、可維護性優化(huà)、監控、報(bào)警處理(lǐ)、自動化(huà)運維、斷網,斷電、機房(fáng)容災等運維工作(zuò)。硬件配置管 理(lǐ)包含機櫃裏每台服務(wù)器(qì)的型号和硬件配置,并清楚是哪些(xiē)業務(wù)系統在使用這(zhè)些(xiē)服務(wù)器(qì)。即便是虛拟化(huà)運行環境,也(yě)需要知道這(zhè)些(xiē)虛機都在哪些(xiē)物理(lǐ)機組成的資源池 中流動。數據中心物理(lǐ)機和虛機數量都很龐大,使用自動化(huà)運維是非常有必要的。自動化(huà)運維不僅能(néng)提升運維的工作(zuò)效率,還可以減少人(rén)為(wèi)的參與,同時(shí)讓數據中心 自己管理(lǐ)自己,釋放(fàng)人(rén)力。并對數據中心可能(néng)發生(shēng)的故障還做好(hǎo)(hǎo)監控與報(bào)警處理(lǐ),以便能(néng)夠在故障發生(shēng)的第一(yī)時(shí)間(jiān)知曉問題,往往一(yī)次大的故障都是從開始的一(yī)點小 故障逐漸擴展最終引發整個(gè)大系統的崩潰的,所以在出現(xiàn)一(yī)些(xiē)小的異常時(shí)一(yī)定要及時(shí)消除,而這(zhè)些(xiē)異常就(jiù)要靠完善的監控和報(bào)警系統來(lái)檢測。

       從數據中心的日常業務(wù)運維方面考慮,則主要有資源、機器(qì)分(fēn)配、資源使用、網絡吞吐、故障恢複、備份應用,集群搭建、流量,壓力,遷移擴容,升級、上(shàng)下(xià)級業 務(wù)關(guān)聯情況、資源利用率、異常處理(lǐ)、應急預案等等。這(zhè)些(xiē)日常運維工作(zuò)實際上(shàng)要花費大量的人(rén)力和時(shí)間(jiān),是運維工作(zuò)的主體(tǐ),也(yě)最煩瑣,但(dàn)卻最不能(néng)體(tǐ)現(xiàn)業績的部 分(fēn)。一(yī)個(gè)數據中心能(néng)夠長久安全穩定運行,就(jiù)是靠這(zhè)些(xiē)日常的工作(zuò)積累,隻有平時(shí)注意這(zhè)些(xiē)細微的變化(huà),才能(néng)不斷優化(huà)。壓力測試、軟件升級、業務(wù)部署、異常處理(lǐ) 等幾乎成為(wèi)了(le)運維工作(zuò)的日常必修課,隻有将這(zhè)些(xiē)工作(zuò)做好(hǎo)(hǎo),才能(néng)避免出現(xiàn)大的故障,并能(néng)夠快(kuài)速部署新(xīn)的業務(wù),根據資源使用情況及時(shí)擴容設備。

       從數據中心網絡方面考慮,則主要有網絡硬件設備、ACL、OSPF、LACP、VIP、流量、負載均衡、二三四七層情況、網絡監控、萬兆闆卡、核心交換 等。網絡是數據中心的重要組成部分(fēn),是一(yī)切工作(zuò)運行的基本保證,沒有網絡數據中心就(jiù)無法運轉起來(lái),所以保證網絡穩定是數據中心運維工作(zuò)中的重中之重。這(zhè)裏 主要關(guān)注的就(jiù)是網絡的硬件問題,ACL部署還有流量監控情況。網絡可以說(shuō)是包羅萬象,涉及太多的設備和協議(yì)技術,所以也(yě)需要不斷地學習,加深對網絡技術 的理(lǐ)解,這(zhè)樣才能(néng)做好(hǎo)(hǎo)網絡運維工作(zuò)。

掃描二維碼

關(guān)注昊雲訂閱号

上(shàng)條新(xīn)聞:有效的項目管理(lǐ)(三)

服務(wù)項目

維保運維服務(wù)

信息系統集成服務(wù)

機房(fáng)搬遷服務(wù)

 
 
 
QQ 在線客服
QQ 在線客服
 
電話(huà):
0531-88818533
客服QQ
2061058957
1905215487