出于盡可能避免數(shù)據(jù)災(zāi)難的設(shè)計(jì)初衷,RAID解決了3個(gè)問(wèn)題:容量問(wèn)題、IO性能問(wèn)題、存儲(chǔ)安全(冗余)問(wèn)題。從數(shù)據(jù)恢復(fù)的角度討論RAID的存儲(chǔ)安全問(wèn)題。
常見(jiàn)的起到存儲(chǔ)安全作用的RAID方案有RAID1、RAID5及其變形。基本設(shè)計(jì)思路是相似的:當(dāng)部分?jǐn)?shù)據(jù)異常時(shí),可通過(guò)特定算法將數(shù)據(jù)還原出來(lái)。以RAID5為例:如果要記錄兩個(gè)數(shù)字,可以通過(guò)再多記錄這兩個(gè)數(shù)字的和來(lái)達(dá)到記錄冗余性的目的。例如記錄3和5,同時(shí)再記錄這2個(gè)數(shù)字的和8。在不記得到底是幾和5的情況下,只需要用8-5就可以算出這個(gè)丟失的數(shù)字了,其余情況依此類推。
在RAID里同樣是以某種算法來(lái)達(dá)到保全數(shù)據(jù)的目的,當(dāng)一組RAID5陣列正常工作時(shí),所有寫(xiě)入RAID里的數(shù)據(jù)都正確地寫(xiě)到特定磁盤(pán)地址,同時(shí)再生成一個(gè)特定的計(jì)算值(通常稱為校驗(yàn)和)。當(dāng)其中一塊盤(pán)出現(xiàn)故障時(shí),存儲(chǔ)在這塊故障盤(pán)上的原有數(shù)據(jù)就要通過(guò)其他硬盤(pán)的數(shù)據(jù)恢復(fù)出來(lái)。由控制器(硬RAID為RAID卡,軟RAID實(shí)際上是個(gè)驅(qū)動(dòng))負(fù)責(zé)這個(gè)工作。為了不宕機(jī),控制器也會(huì)保證存儲(chǔ)的正?;?,不會(huì)讓操作系統(tǒng)認(rèn)為硬盤(pán)系統(tǒng)出了問(wèn)題。
RAID在存儲(chǔ)安全上還有一些不太容易避免的漏洞。雖然由于這些漏洞出現(xiàn)問(wèn)題的可能性不大,但是存儲(chǔ)在RAID上的數(shù)據(jù)價(jià)值無(wú)法評(píng)估。
RAID常見(jiàn)故障:
1、處于降級(jí)狀態(tài)時(shí),未及時(shí)rebuild。RAID是通過(guò)空余的部分存儲(chǔ)空間來(lái)提供算法上的數(shù)據(jù)安全冗余的。當(dāng)某些盤(pán)出現(xiàn)故障下線后,RAID便不能再提供這種存儲(chǔ)冗余。如果不及時(shí)更換盤(pán)&REBUILD,如果其他硬盤(pán)再出現(xiàn)故障,RAID便無(wú)法正常工作了。
2、RAID控制器故障:控制器是連接物理硬盤(pán)與操作系統(tǒng)之間的紐帶。硬盤(pán)容量、硬盤(pán)數(shù)量,RAID級(jí)別、邏輯磁盤(pán)分割方式、塊大小、校驗(yàn)方式等組合成不同的RAID信息(RAID元數(shù)據(jù)),這些RAID信息有時(shí)候會(huì)寫(xiě)在陣列卡上,有時(shí)候會(huì)寫(xiě)在硬盤(pán)上,還有的時(shí)候兩者皆有。如果RAID控制器出現(xiàn)故障,即使更換新的控制器一般也不能將RAID信息還原。中低端的RAID控制器出于成本考慮,漏洞更多。
3、固件算法缺陷:RAID的創(chuàng)建、重建、降級(jí)、保護(hù)等功能的實(shí)現(xiàn)需要非常復(fù)雜的算法。盡管廠商不會(huì)承認(rèn)生產(chǎn)的RAID控制器的BUG,但算法漏洞在任何一款控制器上都無(wú)法避免。固件算法BUG可能會(huì)導(dǎo)致很多無(wú)法解釋的故障。
4、IO通道受阻導(dǎo)致RAID掉盤(pán):RAID控制器在設(shè)計(jì)時(shí)為了數(shù)據(jù)的絕對(duì)安全,會(huì)盡可能避免寫(xiě)數(shù)據(jù)到不穩(wěn)定的存儲(chǔ)介質(zhì)上。這樣,當(dāng)控制器與物理硬盤(pán)進(jìn)行IO時(shí),如果時(shí)間超過(guò)某個(gè)閾值,或不滿足校驗(yàn)關(guān)系,控制器便會(huì)認(rèn)為對(duì)應(yīng)的存儲(chǔ)設(shè)備已不具備持續(xù)工作的能力,會(huì)讓其強(qiáng)制下線,通知管理員盡快解決問(wèn)題。這種設(shè)計(jì)的初衷很好,但對(duì)于像物理鏈接線路松動(dòng)、硬盤(pán)完好情況下機(jī)械工作時(shí)反應(yīng)超時(shí)等隨機(jī)因素,RAID控制器無(wú)法分辨設(shè)備是否具備和之前一樣的穩(wěn)定狀態(tài),通常會(huì)讓其強(qiáng)制下線,便會(huì)導(dǎo)致RAID卷出現(xiàn)故障,此類故障的發(fā)生概率極大且無(wú)法避免。
5、RAID控制器的穩(wěn)定性:RAID控制器在ONLINE狀態(tài)下(無(wú)離線盤(pán))工作是最穩(wěn)定的。當(dāng)部分硬盤(pán)損壞(可能是邏輯故障)后離線,RAID控制器便會(huì)工作在一個(gè)“亞健康”的狀態(tài)。這也是好多中低端的RAID控制器在一塊盤(pán)離線后讀寫(xiě)性能急速下降的原因。控制器負(fù)載太重便會(huì)極大地增加數(shù)據(jù)吞吐時(shí)出現(xiàn)IO滯留的可能性,從而導(dǎo)致RAID離線。一個(gè)不具備高速硬件處理芯片,不具備高速緩沖的控制器發(fā)生這類故障的概率要高得多。
6、壞硬盤(pán):很多人認(rèn)為只要硬盤(pán)一壞,RAID就會(huì)讓這塊壞硬盤(pán)脫機(jī),更換新硬盤(pán)后REBUILD就恢復(fù)如初了。實(shí)際情況是一組RAID在工作很長(zhǎng)時(shí)間以后也很少會(huì)讀到物理硬盤(pán)的所有磁盤(pán)空間,同一時(shí)間更是不可能。部分情況下會(huì)在沒(méi)有讀到的區(qū)域或者以前讀取良好的區(qū)域出現(xiàn)壞道。這類壞道因?yàn)闆](méi)有讀寫(xiě)過(guò),所以控制器是沒(méi)有識(shí)別出來(lái)的。當(dāng)一塊物理硬盤(pán)離線后,通常技術(shù)人員及官方資料都會(huì)建議盡快做REBUILD。如果其他硬盤(pán)存在這類壞道,當(dāng)REBUILD(對(duì)全盤(pán)做全面同步)過(guò)程中讀到那些壞道,這時(shí)候REBUILD沒(méi)完成,新盤(pán)還無(wú)法上線,舊盤(pán)里又發(fā)現(xiàn)了壞道,然后又有硬盤(pán)下線,導(dǎo)致RAID出現(xiàn)故障,無(wú)法自行恢復(fù)數(shù)據(jù)。
7、人為誤操作:誤拔RAID硬盤(pán)、沒(méi)準(zhǔn)備備件盤(pán)、不及時(shí)換盤(pán)、給RAID除塵時(shí)忘了原來(lái)的順序、不小心刪除了原RAID配置等。
8、其他原因。
上述的這些故障原因除人為因素外,大多數(shù)很難直接避免,只能結(jié)合備份,構(gòu)建整體存儲(chǔ)安全方案來(lái)解決。
-
服務(wù)器
+關(guān)注
關(guān)注
14文章
10223瀏覽量
91411 -
RAID
+關(guān)注
關(guān)注
0文章
289瀏覽量
37643 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
708瀏覽量
18953
發(fā)布評(píng)論請(qǐng)先 登錄
【服務(wù)器數(shù)據(jù)恢復(fù)】nas存儲(chǔ)服務(wù)器磁盤(pán)陣列崩潰的數(shù)據(jù)恢復(fù)案例
【服務(wù)器數(shù)據(jù)恢復(fù)】服務(wù)器誤刪除卷的raid5數(shù)據(jù)恢復(fù)案例
raid5磁盤(pán)陣列數(shù)據(jù)恢復(fù)案例
【服務(wù)器數(shù)據(jù)恢復(fù)】存儲(chǔ)設(shè)備中raid5磁盤(pán)陣列數(shù)據(jù)恢復(fù)案例
IBM服務(wù)器RAID5陣列數(shù)據(jù)恢復(fù)案例
IBM服務(wù)器RAID5磁盤(pán)陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)-服務(wù)器RAID6三塊磁盤(pán)離線的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)-2盤(pán)raid0磁盤(pán)陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—EMC存儲(chǔ)raid5故障的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—X3650服務(wù)器raid5磁盤(pán)陣列數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—磁盤(pán)不穩(wěn)定被踢導(dǎo)致raid5陣列崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—從數(shù)據(jù)恢復(fù)的角度討論RAID磁盤(pán)陣列的存儲(chǔ)安全問(wèn)題
評(píng)論