容錯(cuò)技術(shù)研究
(作者未知) 2011/6/23
[摘要]隨著計(jì)算機(jī)技術(shù)的發(fā)展,容錯(cuò)技術(shù)和容錯(cuò)計(jì)算機(jī)將成為新的研究發(fā)展方向。本文介紹了容錯(cuò)技術(shù)的基本原理及內(nèi)容,介紹了容錯(cuò)系統(tǒng)的經(jīng)歷階段和實(shí)現(xiàn)容錯(cuò)功能的關(guān)鍵技術(shù),總結(jié)了計(jì)算機(jī)容錯(cuò)技術(shù)的現(xiàn)階段的應(yīng)用情況。
[關(guān)鍵詞]容錯(cuò)技術(shù) 可靠性 容錯(cuò)功能
隨著現(xiàn)代工業(yè)技術(shù)的發(fā)展和計(jì)算機(jī)的普及,工業(yè)設(shè)備運(yùn)行的安全性和可靠性越來越引起人們的重視,為了保證其安全、高效和可靠地運(yùn)行,必須采用與之相適應(yīng)的管理模式,容錯(cuò)技術(shù)為計(jì)算機(jī)系統(tǒng)提供了這樣的能力:當(dāng)計(jì)算機(jī)內(nèi)部出現(xiàn)故障的情況下,計(jì)算機(jī)系統(tǒng)仍能正確工作。計(jì)算機(jī)容錯(cuò)技術(shù)是計(jì)算機(jī)系統(tǒng)可靠性提高的重要手段。
當(dāng)系統(tǒng)內(nèi)部有故障存在時(shí),通過容錯(cuò)技術(shù)消除故障的影響,使系統(tǒng)最終仍能給出正確的結(jié)果。按照時(shí)間劃分,故障可分為以下三種:永久性故障、間歇性故障和偶然性故障。永久故障是永遠(yuǎn)持續(xù)下去直至修復(fù)為止的故障。對硬件來說,永久性故障意味著不可逆的物理變異。對軟件來說,這類故障也就是一個(gè)不可以自動(dòng)恢復(fù)的錯(cuò)誤狀態(tài)。間歇性故障是短暫的,但卻是斷續(xù)的,它既有偶然性,又有不定期的重復(fù)性。如一個(gè)處于臨界狀態(tài)的電路輸出時(shí)好時(shí)壞,而一個(gè)虛焊點(diǎn)就會(huì)引起這樣的故障。偶然性故障出現(xiàn)是短暫的,且可能是非重復(fù)性的。常常由于環(huán)境的變換、電源方面的干擾、元器件性能的波動(dòng)、軟件的隨機(jī)變換、電磁干擾等因素而引起。這樣的故障有可能僅出現(xiàn)一次,或很長時(shí)間出現(xiàn)一次,但卻可能造成數(shù)據(jù)錯(cuò)誤,甚至系統(tǒng)癱瘓。
針對不同故障應(yīng)采取不同的容錯(cuò)方法。容錯(cuò)技術(shù)能自動(dòng)適時(shí)地檢測并診斷出系統(tǒng)的故障,然后采取對故障的控制或處理的對策略。按照系統(tǒng)的失效響應(yīng)階段,可以把各種容錯(cuò)技術(shù)分成三種:故障檢查、靜態(tài)冗余、動(dòng)態(tài)冗余。故障檢測并不提供對故障的容忍,而是發(fā)生故障時(shí)給出一個(gè)警告。故障檢測廣泛應(yīng)用于微型機(jī)和小型機(jī)之類的小系統(tǒng)中,其中一些已體現(xiàn)了簡單的聯(lián)機(jī)檢測機(jī)理。嚴(yán)格地說,故障檢測不是容錯(cuò),它盡管檢測了故障,但是不能容忍這些故障,不給出故障警告。動(dòng)態(tài)冗余用于糾錯(cuò)碼存儲(chǔ)器或具有固定配置(即線路器件之間的邏輯連接保持不變)的多數(shù)表決冗余計(jì)算機(jī)之類的系統(tǒng)中。
根據(jù)不同情況,一個(gè)容錯(cuò)系統(tǒng)可經(jīng)歷以下階段:(1)故障檢測:大多數(shù)失效最終導(dǎo)致產(chǎn)生邏輯故障。有許多方法可用來檢測邏輯故障,如奇偶校驗(yàn)、一致性校驗(yàn)和協(xié)議違章都可以用來檢測故障。故障檢測技術(shù)有兩個(gè)主要的類別,即脫機(jī)檢測和聯(lián)機(jī)檢測,在脫機(jī)檢測情況下,進(jìn)行檢測時(shí)設(shè)備不能進(jìn)行有用的工作;聯(lián)機(jī)檢測提供了實(shí)時(shí)檢測能力,因?yàn)槁?lián)機(jī)檢測與有用的工作同時(shí)執(zhí)行。聯(lián)機(jī)檢測技術(shù)包括奇偶校驗(yàn)和冗余校驗(yàn);(2)故障限制:當(dāng)故障出現(xiàn)時(shí),希望限制其影響范圍。故障限制是把故障效應(yīng)的傳播限制到一個(gè)區(qū)域內(nèi),從而防止污染其他區(qū)域;(3)故障屏蔽:故障屏蔽技術(shù)把失效效應(yīng)掩蓋了起來,從某種意義上說,是冗余信息戰(zhàn)勝了錯(cuò)誤信息,多數(shù)表決冗余設(shè)計(jì)就屬于故障屏蔽;(4)重試:在許多場合,對一個(gè)操作系統(tǒng)的第二次試驗(yàn)可能是成功的,對不引起物理破壞的瞬間故障尤其如此;(5)診斷:對故障檢測技術(shù)沒有提供有關(guān)故障位置、性質(zhì)的信息進(jìn)行診斷;(6)重組:當(dāng)檢測出一個(gè)故障并判明是永久性故障時(shí),重組系統(tǒng)的器件替換失效的器件或把失效的器件與系統(tǒng)的其他部分隔離開來,也可使用冗余系統(tǒng),確保系統(tǒng)能力不降低;(7)恢復(fù):經(jīng)檢測和重組后,必須消除錯(cuò)誤效應(yīng)。通常,系統(tǒng)會(huì)回到故障檢測前處理過程的某一點(diǎn),并從這一點(diǎn)重新開始操作。這種恢復(fù)形式通常要后備文件、校驗(yàn)點(diǎn)和應(yīng)用記錄方法;(8)重啟動(dòng):如果一個(gè)錯(cuò)誤破壞的信息太多,或者系統(tǒng)沒有設(shè)計(jì)恢復(fù)功能,那么恢復(fù)就不可能實(shí)現(xiàn)。僅當(dāng)系統(tǒng)未受任何破壞時(shí),才能進(jìn)行“熱”重啟,并從故障檢測點(diǎn)恢復(fù)所有的操作!盁帷敝貑⑾喈(dāng)于系統(tǒng)需要完全重新加載;(9)修復(fù):即把診斷為故障的器件還原下來,修復(fù)也可以是聯(lián)機(jī)進(jìn)行的或者脫機(jī)進(jìn)行的;(10)重構(gòu):對元件進(jìn)行物理替換之后,把修復(fù)的模塊重新加入到該系統(tǒng)中去。對聯(lián)機(jī)修復(fù)來說,實(shí)現(xiàn)重構(gòu)不中斷系統(tǒng)的工作。
隨著計(jì)算機(jī)硬件和網(wǎng)路的快速發(fā)展,容錯(cuò)計(jì)算機(jī)的系統(tǒng)開銷逐漸降低,且糾錯(cuò)速度快。而軟件方法實(shí)現(xiàn)的容錯(cuò),對硬件不會(huì)提過高的要求。同時(shí)系統(tǒng)靈活,資源利用比較合理。更正檢測、診斷將會(huì)采取人工智能的處理途徑,以專家系統(tǒng)的各種智能工具來支持故障檢測和診斷。利用專家的知識,借助推理機(jī)構(gòu),迅速而準(zhǔn)確地提供診斷結(jié)果。系統(tǒng)的動(dòng)態(tài)重構(gòu)、故障恢復(fù)功能及神經(jīng)元芯片等將被用到容錯(cuò)技術(shù)中來,都將在智能化的支持下得以實(shí)現(xiàn)。同時(shí)對電路內(nèi)部的自檢、自重構(gòu)研究,可以解決電路本身及子系統(tǒng)的可靠性問題,將會(huì)出現(xiàn)容錯(cuò)的VLS1芯片及可直接支持系統(tǒng)容錯(cuò)設(shè)計(jì)的可容錯(cuò)設(shè)計(jì)芯片,為系統(tǒng)設(shè)計(jì)者提供一個(gè)具有透明性的容錯(cuò)設(shè)計(jì)元器件。進(jìn)入到芯片內(nèi)部的容錯(cuò)技術(shù)的研究將成為容錯(cuò)研究的一大分支。
隨著網(wǎng)路時(shí)代的到來,對于一個(gè)成功的電子(未完,下一頁)
|
|
相關(guān)專業(yè)論文
|
|
推薦專業(yè)論文
|
|
|
|