|
公司基本資料信息
|
一、 需求分析
上海小松的IT系統(tǒng)對用戶的業(yè)務(wù)生產(chǎn)的支持非常重要,所以IT系統(tǒng)的穩(wěn)定是用戶業(yè)務(wù)生產(chǎn)穩(wěn)定的基礎(chǔ)。目前的IT環(huán)境是在沒有冗余和備份機制的基礎(chǔ)上運行,存在巨大的風(fēng)險。前面一段時間曾經(jīng)出現(xiàn)過一次HP服務(wù)器由于電源風(fēng)扇問題而Down機的情況;最近由于Domino的bug也使得系統(tǒng)出現(xiàn)過幾次Domino異常終止的情況。 所以需要建立一套冗余機制,能夠?qū)崿F(xiàn)服務(wù)的不中斷運行(如果一臺服務(wù)器出現(xiàn)問題,或者一個應(yīng)用出現(xiàn)問題,那么可以直接切換到冗余的服務(wù)器上);同時建立備份機制(例如:磁帶備份)和監(jiān)控機制(事前預(yù)防)。
上海小松目前規(guī)劃建設(shè)4臺服務(wù)器做雙機熱備冗余,全部為WINDOWS SERVER,,該四臺服務(wù)器中的數(shù)據(jù)需要高速存儲到磁盤陣列中,其傳輸速率不能低于2GB/S,同時每天需將在固定的時間內(nèi)段將鏡像數(shù)據(jù)再備份到二級存儲設(shè)備---磁帶庫上,與此同時要求磁盤陣列中的數(shù)據(jù)存儲裸容量不能低于1TB,并提供相應(yīng)的高安全級別RAID進行數(shù)據(jù)保護,對于磁帶庫設(shè)備,其備份的數(shù)據(jù)容量不能少于1TB,這些數(shù)據(jù)必須保證至少2個月的保存時間。備份軟件必須采用全自動備份和高性能恢復(fù)程序。
二、 設(shè)計原則
基于以上的需求和我公司對此項目的了解。我們認為系統(tǒng)方案的設(shè)計目標是構(gòu)造一個功能齊全、運行高效、使用靈活、維護方便、易于擴展、投資省、安全可靠的系統(tǒng)解決方案,為了達到這個目標,必須遵守以下幾個設(shè)計原則。
系統(tǒng)方案的高可用性是信息系統(tǒng)長期有效使用的關(guān)鍵。NEC提供的系統(tǒng)方案大到設(shè)備與設(shè)備的連接,設(shè)備與網(wǎng)絡(luò)的連接;小到存儲設(shè)備的接口,內(nèi)部高速緩存,都考慮到了充分的冗余。
在發(fā)展迅速的信息領(lǐng)域,應(yīng)用環(huán)境、系統(tǒng)的硬件或軟件都會不斷地加以更新,因此,系統(tǒng)的可擴充性以及前后兼容一致性好壞決定著企業(yè)信息系統(tǒng)的發(fā)展。本方案的設(shè)計,硬件/軟件是建立在廣泛的可升級基礎(chǔ)之上的,NEC提供支持靈活的升級方案。
性能價格比是我們在本方案中充分考慮的因素。投資保護不僅僅是對設(shè)備產(chǎn)品等,更應(yīng)該是對人和知識產(chǎn)品的保護。
三、 系統(tǒng)方案介紹
針對用戶對系統(tǒng)的可靠性和容錯能力的要求,建議用戶選擇NEC EXPRESSCLUSTER的高可用集群解決方案,來實現(xiàn)系統(tǒng)中數(shù)據(jù)庫服務(wù)器(MSSQL2000)、Web服務(wù)器(Websphere)的服務(wù)、郵件Domino7以及業(yè)務(wù)數(shù)據(jù)的備份,從而達到系統(tǒng)的高度可靠性和容錯能力。
EXPRESSCLUSTER是NEC的一款專業(yè)的高可用集群軟件。它可以對系統(tǒng)的軟硬件狀況實時進行監(jiān)控,在服務(wù)器發(fā)生異?;蝈礄C時,可以自動將服務(wù)切換到備份服務(wù)器上運行,實現(xiàn)系統(tǒng)的高可用性。系統(tǒng)結(jié)構(gòu)示意圖:
(1) 同時使用網(wǎng)絡(luò)存儲設(shè)備和服務(wù)器本地磁盤間的鏡像
EXPRESSCLUSTER可以支持在一個集群系統(tǒng)中同時使用網(wǎng)絡(luò)存儲設(shè)備和磁盤鏡像功能。這樣既可以使用大容量存儲設(shè)備來保存全部的履歷數(shù)據(jù),又可以對本地的常用數(shù)據(jù)進行實時的鏡像復(fù)制。
磁盤鏡像功能是將用戶數(shù)據(jù)存儲于各自服務(wù)器的本地磁盤分區(qū)上,通過鏡像引擎將數(shù)據(jù)進行實時復(fù)制備份。數(shù)據(jù)存儲于不同服務(wù)器內(nèi)的鏡像盤上也避免了單點崩潰的可能性,增加了數(shù)據(jù)的安全性及系統(tǒng)的可用性。
而且,使用網(wǎng)絡(luò)存儲和鏡像方式構(gòu)筑集群系統(tǒng),兩臺服務(wù)器之間的距離不受外部存儲設(shè)備連接線的限制,可以將兩臺服務(wù)器放置在不同的位置。
(2) 兩臺服務(wù)器互為備份
Webshpere和MSSQL2000可以分別運行在兩臺服務(wù)器上,并互為備份關(guān)系。當(dāng)任何一個應(yīng)用發(fā)生故障時,再切換到另外一臺服務(wù)器上運行,這種配置方式可以充分利用服務(wù)器資源,避免硬件浪費。并且可以分散兩種應(yīng)用的負荷,提高可用性和系統(tǒng)的整體處理能力。增加ExpressCluster X Application Server Agent 1.0 for Windows,對Websphere 應(yīng)用進行深層次***,保證僵死狀態(tài)事故發(fā)生,提高預(yù)警功能。
Domino同樣分別運行在兩臺服務(wù)器上,并互為備份關(guān)系。當(dāng)任何一個應(yīng)用發(fā)生故障時,再切換到另外一臺服務(wù)器上運行;增加ExpressCluster X Internet Server Agent 1.0 for Windows,對IIS應(yīng)用進行深層次***,保證僵死狀態(tài)事故發(fā)生,提高預(yù)警功能。
(3) 故障探測機制
首先,ExpressClsuter的各種***器模塊可以對系統(tǒng)的狀況進行全方位的***。***對象包括,服務(wù)的進程、操作系統(tǒng)、服務(wù)器、本地磁盤、網(wǎng)絡(luò)存儲以及網(wǎng)絡(luò)連接、磁盤連接、UPS等(如下圖所示)。涵蓋了系統(tǒng)對外提供服務(wù)所依賴的每一個環(huán)節(jié)。
(4) 應(yīng)用軟件的深層次故障***
一般的集群軟件在***應(yīng)用程序時,應(yīng)用程序若啟動失敗或服務(wù)異常停止,通常能夠檢測到并使其發(fā)生失效切換。但應(yīng)用程序在啟動后若僵死(Stall)或發(fā)生處理錯誤則無法檢測到。
EXPRESSCLUSTER不但能夠做到進程級別的***, 通過使用Agent模塊***到數(shù)據(jù)庫和Web服務(wù)器等應(yīng)用的僵死狀態(tài)和處理錯誤。這樣可以更有效地在集群系統(tǒng)中***應(yīng)用程序。
EXPRESSCLUSTER的Agent的***原理是通過模擬一個客戶端,嘗試執(zhí)行數(shù)據(jù)庫或Web訪問來間接地實現(xiàn)。當(dāng)Agent的訪問失敗或得到異常的結(jié)果,則發(fā)出通報并進行失效切換等相應(yīng)處理。
(5) 故障處理機制
根據(jù)資源和故障發(fā)生位置的特性,對于每一種故障,ExpressCluster可以分別設(shè)置不同的處理和自我恢復(fù)策略。處理方式包括,單個應(yīng)用或資源的本地重啟動,以組為單位的本地重啟動,切換到備份服務(wù)器,重啟動服務(wù)器或關(guān)機等。
例如:在軟件服務(wù)發(fā)生故障時,可以選則首先嘗試本地恢復(fù),本地恢復(fù)失敗再切換到本分服務(wù)器運行,這樣可以減少切換時間,提高恢復(fù)速度。而由于硬件卸載失敗導(dǎo)致切換失敗時,可以選擇關(guān)閉操作系統(tǒng)來強制切換等。
此外,在發(fā)生故障時,EXPRESSCLUSTER還可以進行事件通報,郵件通知等處理。
四、 用戶評價:
上海小松IT科的馬科長說到:“NEC高可用集群軟件EXPRESSCLUSTER在我公司中的應(yīng)用非常成功,實施以來,整個系統(tǒng)一直穩(wěn)定運行,給我們工作壓力減輕許多,NEC雙機軟件實時的保證我們的Domina系統(tǒng)、數(shù)據(jù)庫服務(wù)的正常工作。