1、第一章 類神經網路之簡介1.1 簡介 電腦的有效性仍然令我們失望,譬如說在影像辨識、語音辯認、以及決策處理等方面的問題上。在於數位電腦基本架構的限制,因其本質上就只能根據使用者撰寫的電腦程式來執行運算。期望能夠設計出一部能像人類大腦一樣,能夠學習及具有智慧的機器,如此一來,許多複雜難解、或有生命危險等高難度的工作,便可以交由此等智慧型的機器來完成。1.2 生物神經網路(1)如何藉助生物神經系統處理資訊的模式及架構,來設計出有智慧的機器是一大挑戰。圖1.1:人類神經系統示意圖。1.2 生物神經網路(2)人類對大腦的正確認知,是藉由逐漸地修正錯誤知識而形成的。18世紀初,弗盧杭從移除各種動物的大腦
2、的不同區域的實驗中,觀察有哪些功能仍能遺留下來?最後他認定腦部各區不可能具有不同的功能。但有些人卻認為腦部可區分成明確的區域,此派學說以高爾醫生最為著名。發展成腦相腦相術術。腦部相關資訊腦部相關資訊(1)18世紀初,弗盧杭從移除腦的不同區域實驗中,得知腦部是整體而不具有特定區域功能。尺寸的不同尺寸的不同:腦部越大,越聰明?大象是人的五倍。腦部與體重之比例腦部與體重之比例:比例越大,越聰明?大象是 0.2%,人是 2.33%,地鼠是 3.33%。大腦皮質皺摺複雜度及面積大腦皮質皺摺複雜度及面積:越大,越聰明?地鼠是郵票大小、黑猩猩是A4大小、人是4 x A4大小(厚)、海豚比人還大(薄)。腦部相
3、關資訊腦部相關資訊(2)經過數百年演化,大腦逐漸由下層組織發展出高階之上層組織,如圖1.1所示。人類胚胎的大腦大抵遵循此發展。腦部相關資訊腦部相關資訊(3)人類的大腦具有(1)腦幹腦幹(brainstem):又稱爬蟲類大腦。負責呼吸等基本生命功,並控制生存所必須之反應及運動。純粹機械性、無意識的過程;(2)邊緣系統邊緣系統(limbic system):又稱哺乳類大腦。情緒中樞,進化過程中又逐漸多了學習及記憶功能;(3)大腦新皮層大腦新皮層(neocortex):大腦的最外層的皺摺組織,思考重鎮,有了它才使得人與其他生物之差別 2。腦部相關資訊腦部相關資訊(4)(a)人類大腦組織示意圖(本圖摘
4、自9)腦部相關資訊腦部相關資訊(5)腦電波(EEG,Electroencephalography)、核磁共振(MRI,Magnetic Resonance Imaging)、功能性核磁共振(fMRI)、正子斷層掃描(PET,Position Emission Topography)、近紅外光光譜儀(NIRS,Near-infra-red Spectroscopy)、以及腦磁波(MEG,Magneto encephalography)等。近數十年來,認知科學的興起,讓人類對大腦的全盤認識,越來越有指日可待的期盼。摘自:大腦的秘密檔案 洪蘭 譯摘自:大腦的秘密檔案 洪蘭 譯生物類別(1)達爾文生物
5、生物類別(2)史金納生物生物類別(3)巴柏生物生物類別(4)格雷利高生物能力來源 遺傳及後天環境刺激摘自:大腦的秘密檔案 洪蘭 譯摘自:大腦的秘密檔案 洪蘭 譯如何看待刺激?Illusion(1)Illusion(2)1.2 生物神經網路(3)基本上,有兩種不同的途逕來嘗試研究大腦的功能。第一種屬於由下而上的由下而上的方式,通常生物神經學家(neurobiologists)採用此種方式,藉由對單一神經細胞的刺激與反應(stimulus-response)特徵的瞭解,進而對由神經細胞聯結而成的網路能有所認識;而心理學家(psychologists)採取的是由上而下由上而下的途逕,他們從知覺(co
6、gnition)與行為反應來瞭解大腦。目前我們對大腦運作模式的瞭解仍然十分有限。人類的神經系統可視為三個子系統所互相協調而成的複合系統,如圖1.1所示。圖1.1:人類神經系統示意圖。1.3 生物神經細胞(1)1872年發生了神經科學史上的重大突破,義大利的年輕醫學院畢業生高基用肉眼看到腦部的最基本的構成單元神經細胞的重大發現1。人類的大腦是由大約 1011 個神經細胞(nerve cells)所構成,每個神經細胞又經由約 104 個突觸(synapses)與其它神經細胞互相聯結成一個複雜,但具有平行處理能力的資訊處理系統。一個典型的神經元可分為(1)細胞本體細胞本體(soma)、(2)軸突軸突
7、(axon)、以及以及(3)樹突樹突(dendrites)等三部份。圖1.2:生物神經細胞示意圖。1.3 生物神經細胞(2)樹突樹突的主要功能就是接受其它神經元所傳遞而來的信號。若導致位於軸突丘軸突丘 的細胞膜電位 超過某一特定閥值(threshold)時,則所謂的活化電位活化電位(action potential)的脈衝就會被激發出來。藉由管狀似的軸突軸突傳遞至其它相連接的神經元。軸突的終點處是突觸突觸,這種細胞間的信號傳遞以化學性化學性的方式居多。圖1.3:神經信號之傳遞。1.3.1 生物電位與活化電位(1)細胞內外充滿了含有陰離子(如:氯離子,Cl-)及陽離子(如:鈉離子、鉀離子、鈣離子
8、,Na+,K+,及 Ca+2 等)的電解液。細胞的外圍是一層半滲透性的組織,此組織稱為細胞膜細胞膜。這些離子在(1)滲透壓滲透壓和(2)電場效應電場效應的影響下,最後會達到一種平衡狀態,使得鉀離子大部份位在細胞體內,而鈉離子大部份位在細胞體外,這時細胞便呈現約-85mv 的休止電位休止電位(resting potential)。圖1.4:理想化之細胞模型。1.3.1生物電位與活化電位(2)我們可以用 Goldman(或 GHK)式子來計算細胞膜電位 1:其中 PNa、PK 和 PCl 代表鈉、鉀、和氯離子穿透細胞膜的係數,下標 i 和 o 分別代表細胞內與外,K、Na、和 Cl 代表離子濃度。
9、VKNaPPClPPKNaPPClPPmooNaKiClKiiNaKoClK 58log1.3.1生物電位與活化電位(3)大多數的哺乳類動物的神經細胞,其休止電位差大約都接近-70mv。當神經細胞被刺激時,在樹突部位的細胞膜的特性會被改變,使得鈉離子可以進入細胞內,導致細胞膜電位的改變,這種電位稱為後突觸細胞膜電位後突觸細胞膜電位(post-synaptic potential),其振幅與刺激強度成正比,並且會隨著傳遞距離的增加而衰減。後突觸細胞膜電位的產生,會依據神經傳導物質的種類不同而有不同的效果,也就是說,可以分為兩種刺激:(1)激發型激發型細胞膜的電位往增加的方向改變,以及(2)抑制型
10、抑制型細胞膜的電位往更負的方向改變。1.3.1生物電位與活化電位(4)所有位於樹突上,因刺激而引起的電位變化,都會朝向位於細胞本體上之軸突丘方向傳遞。此時,如圖1.6所示的時間性相加時間性相加(temporal summation)將所有在不同時間到達的刺激相加起來和空間性相加空間性相加(spatial summation)將刺激型和抑制型的刺激相加起來。若這些信號的綜合效果,導致軸突丘的細胞膜電位的增加,而且超過某一特定的閥值(如-55mv)時,則活化電位活化電位會被激發。1.3.1生物電位與活化電位(5)圖1.6:發生於神經元突觸之時間性相加示意圖 1.3.1生物電位與活化電位(6)在軸突
11、丘的細胞膜上的鈉離子通道會被開啟,導致大量的鈉離子進入細胞膜內,進而激發活化電位的產生,如圖1.7(a)所示。由於鈉離子的大量進入,使得細胞膜電位呈現正值,這種現象被稱作去極化(depolarization);一但電位呈現約20mv的正值時,鉀離子會離開細胞,導致細胞膜電位呈現比休止電位還要負的現象,這種現象被稱作過極化(hyperpolarization)。活化電位以一種振幅大小不變的方式,沿著軸突方向傳遞。刺激強度的資訊與活化電位的發生頻率有關,而與其振幅的大小無關,其傳遞的速度與(1)軸突的直徑大小以及(2)軸突上之細胞膜的電容及電阻性有關。圖1.7:(a):活化電位示意圖 1.3.1生
12、物電位與活化電位(7)活化電位的產生及傳遞在在都需要時間,倘若信號的傳遞方式就只有此種形式,那麼大型動物豈非會因為體型大而註定行動遲緩?自然的演化導致所謂的髓鞘環繞的軸突(myelinated axon)的產生,在整條被許旺細胞包裹住的軸突上,會有一些稱為郎威埃氏結(Raviner nodes)的小間隙沒有被包裹住,因而活化電位可以在此產生,所以對於髓鞘環繞的軸突來說,活化電位是以跳躍式的傳導(salutatory conduction)的方式進行,以加速傳遞的速度。圖1.7:(b):發生於髓鞘環繞的軸突的跳躍式傳遞。1.3.1生物電位與活化電位(8)我們可以用如圖 1.8 所示的電路來模擬位
13、於軸突的細胞膜。其中 Cm 代表細胞膜的電容性,gk、gCl 和 gNa 代表離子進出入細胞膜的難易度,gk 與 gNa是用可變電阻來說明細胞膜的特性,亦即對鉀與鈉離子來說,進出細胞膜的難易度是會改變的圖1.8:軸突的細胞膜電位之等效電路。1.3.1生物電位與活化電位(9)Vm 代表軸突的細胞膜電位差,而 EK、ECl、和 ENa 代表由 Nernst 方程式所推導出來的細胞膜電位 1,所謂的 Nernst 方程式定義如下:其中,R 是氣體常數,T 為絕對溫度,z 為價電子數,F 是法拉第常數,Iono是細胞膜外的離子濃度,Ioni 是細胞膜內的離子濃度。ERTzFIonIonkoi()ln(
14、)1.3.2神經元之連接模式(1)發散發散(divergent)型型:傳入型神經元(afferent neurons)採取此種發散型模式,以便將所獲得之資訊,以平行之方式快速地傳達至大腦。圖1.7:神經元的連接模式:發散型。1.3.2神經元之連接模式(2)收斂收斂(convergent)型型:大致上,所謂的輸出型神經元(efferent neurons)與神經末稍之間的連接方式是屬於此種模式。圖1.8:神經元的連接模式:收斂型。1.3.2神經元之連接模式(3)鏈接及迴路鏈接及迴路(chains and loops)型型:大腦裏的神經元為了處理傳送而來的複雜資訊,發展出這種複雜的連接模式,其中有
15、正迴授與負迴授等情形發生。圖1.9:神經元的連接模式:鏈接及迴路型。範例1.1:神經元的連接方式(1)當四個突觸同時被激發時,四個突觸所產生的電位總合並未超過激發此神經元的閥值,因此神經元不被激發,如圖1.10(b)所示;(2)當四個突觸被激發的順序為:D,C,B,與A時,四個突觸所產生的電位總合超過激發此神經元的閥值,因此神經元處於激發狀態,如圖1.10(c)所示。圖1.10:本圖摘自:M.Arbib,The Metaphorical Brain:Neural Networks and Beyond,John Wiley&Sons,Inc.,1989.)1.4 類神經元的模型(1)個別的神經
16、元透過是否激發出活化電位的機制,使其本身就具備處理部份資訊的能力。至於我們要如何向生物神經網路借鏡呢?當然,第一步是設法模仿單一神經元的運作模式。圖1.11:類神經元之數學模型。1.4 類神經元的模型(2)鍵結值(synaptic weights):突觸的效果實際上可分為兩種:(1)刺激性的突觸刺激性的突觸:此種突觸會使得被連接的神經元容易被激化,因而導致活化電位的產生。(2)抑制性的突觸抑制性的突觸:此種突觸會使得被連接的神經元的細胞膜電位值,變得更負(即遠離閥值),因而導致此神經元不容易產生活化電位。正值正值的鍵結值代表是刺激性的突觸刺激性的突觸,而抑制性抑制性的突觸的突觸則由負值負值的鍵
17、結值所代表,另外,突觸影響性的大或小,則與鍵結值的絕對值成正比。1.4 類神經元的模型(3)加法單元加法單元:產生於樹突頂端的層次電位,會從四面八方朝向軸突丘傳遞,此時軸突丘會執行空間及時域(spatio-temporal)的整合處理,這是個十分複雜的過程,在簡單的類神經元的模型中,我們通常以一個加法單元來簡化此過程;而複雜一點的,可以用一個有限脈衝響應濾波器(finite impulse response filter)來近似此過程。圖1.5:時空性相加1.4 類神經元的模型(3)活化函數活化函數(activation function):在軸突丘部位所呈現的整體細胞膜電位,若超過閥值,則活
18、化電位脈衝會被激發,整個傳遞而來的資訊在這裏被調變(modulation)處理,軸突丘將資訊編碼於(1)活化電位的是否產生及(2)活化電位脈衝的產生頻率中。因此,我們將經過權重相加的輸入,透過活化函數的轉換,使得類神經元的輸出代表短期間之平均脈衝頻率。1.4 類神經元的模型(4)我們可以用以下的數學式子來描述類神經元的輸入輸出關係:piijijxwu1其中 代表第 i 維輸入至第 j 個類神經元的鍵結值;代表這個類神經元的閥值;代表 p 維的輸入;代表第 j 個類神經元所獲得的整體輸入量,其物理意義是代表位於軸突丘的細胞膜電位;代表活化函數;則代表了類神經元的輸出值,也就是脈衝頻率。jiwjT
19、pxxx),(1jujy(1.3)(1.4)jjjuy1.4 類神經元的模型(5)如果我們用 代表 ,則上述式子可改寫為:(1.5)及(1.6)其中 和 。xwxwvTjpiijij0 jjvyTjpjjjwwww,10Tpxxxx,1210jwj1.4 類神經元的模型(6)所用的活化函數型式,常見的有以下四種型式:嚴格限制函數嚴格限制函數(hard limiter or threshold function):區域線性函數區域線性函數(piecewise linear function):圖1.12:嚴格限制函數。圖1.13:區域線性函數。0001)(vifvifv212101)(vvifv
20、vvifcvvvifv1.4 類神經元的模型(7)s-字型函數字型函數(sigmoid function):高斯函數高斯函數(Gaussian function):圖1.14:s-字型函數。圖1.15:高斯函數。)exp(11)(cvv)tanh()(cvv 222exp)(vv1.5 網路架構(1)單層前饋網路單層前饋網路(single-layer feedforward networks):如圖1.16所示,整個網路由一層具有處理資訊能力的類神經元所組成,通常此種網路的功能性較差,只能處理線性的問題。圖1.16:單層前饋網路。1.5 網路架構(2)多層前饋網路多層前饋網路(multi-la
21、yer feedforward networks):根據鍵結的聯接方式,此種網路又可細分為(1)部份連結部份連結(partially connected)網路網路,如圖1.17(a)或(2)完全連結完全連結(fully connected)網路網路,如圖1.17(b),此種網路可處理複雜性高的問題。圖1.17:多層前饋網路:(a)部份連結;(b)完全連結。1.5 網路架構(3)循環式網路循環式網路(recurrent networks):此網路的輸出會透過另一組鍵結值,聯結於網路的某處(如輸入層或隱藏層)而迴授至網路本身。圖1.18:循環式網路。1.5 網路架構(4)晶格狀網路晶格狀網路(la
22、ttice networks):基本上,此種網路屬於前饋型網路,只不過其輸出層的類神經元是以矩陣方式所排列。圖1.19:二維的33之晶格狀網路。1.6 學習與記憶(1)學習學習(learning)是自然生物或人造系統之所以有智慧的一個極為重要的特徵。學習學習與記憶記憶是密不可分的,因為有學習行為的發生才導致記憶的形成;能夠記憶才產生學習的效果。人類的記憶有以下的一些特點:人類的記憶屬於分散式分散式(distributed)的儲存,並且是屬於聯想式聯想式的記憶的記憶(associate memory)。人類易於記憶,但卻難於回想回想(recall)。人類的記憶,根據儲存的期間長短又分為三種:(1
23、)立即計憶立即計憶(immediate memory);(2)短程記憶短程記憶(short-term memory);(3)長程記憶長程記憶(long-term memory)。1.6 學習與記憶(2)短程記憶短程記憶:負責的就是將當時的外界狀態,經過某種處理後暫存起來,隨著時間的增長而逐漸消逝。根據生物神經學的理論,短程記憶是動態的(dynamic),而且不斷地在彼此聯結的神經元間以反覆地產生脈衝的型式表現。長程記憶長程記憶:這種記憶是屬於靜態的(static),並且是以神經細胞間的聯結強度、聯結方式、及每個神經細胞本身閥值大小不同的方式來儲存記憶。1.6 學習與記憶(3)根據神經解剖學家的
24、研究,發現剛出生的老鼠,平均每個神經元有大量的突觸與其它神經元有所聯結,而年老的老鼠卻擁有較少的突觸,因為學習過程會逐漸確定神經元間的聯結方式。基本上,短程記憶與長程記憶不是彼此毫無干涉地平行運作,而是互相交替地連續運作。所有的記憶都是以短程記憶開始,然後透過記憶力的集中和複誦才能形成長程記憶。當我們正記起某件事情時,腦中應該有一些與此記憶相關的神經元正在活化。許多臨床實驗發現內視丘(medial thalamus)負責記憶類型的最初統合,專司將感覺的輸入訊息傳達至皮質。1.7 類神經網路的學習規則(1)學習的策略(strategies)可分為以下幾種:機械式的背誦學習機械式的背誦學習(rot
25、e learning)。指令式的學習指令式的學習(learning by instruction)。類推式的學習類推式的學習(learning by analogy)。歸納式的學習歸納式的學習(learning by induction):此種學習又可分為以下三種方式:(1)從範例中學習從範例中學習(learning from examples):又稱為監督式監督式(supervise)學習學習。學習者從一組含有正例(positive examples)與反例(negative examples)的學習範例中,歸納出一個能夠解釋範例的整體概念(concept)。1.7 類神經網路的學習規則(2
26、)(2)從觀察及發現中學習從觀察及發現中學習(learning from observation and discovery):又稱為非監督式非監督式(unsupervised)學習學習。缺乏所謂的加標過的資料,這種學習法需要學習者自行去發掘出資料本身的重要特徵或結構。(3)增強式學習增強式學習(reinforcement learning):比非監督式學習法又多了一點資訊。學習者在學習的過程中會和環境 有一連串的互動,自行採掘適當的措施來因應刺激,接著會有所謂的評論家(critic)來評斷剛才學習者自行因應的措施是否恰當?此評論就是所謂的增強式信增強式信號號(reinforcement si
27、gnal)。大體說來,增強式學習法在學習的過程中會借助評論家所提供的增強式信號,來調整學習者因應刺激的措施,以便效能指標(index of performance)達到極大化。1.7 類神經網路的學習規則(3)我們以數學式來描述通用型的學習規則 其中 及 分別代表原先的及調整後的鍵結值;代表此類神經元受到刺激後,為了達成學習效果,所必須採取的改變量。此改變量,通常是(1)當時的輸入 、(2)原先的鍵結值 、及(3)期望的輸出值(desired output)di(若屬於非監督式學習,則無此項)的某種函數關係。)()()1(nwnwnwjijiji)(nwji)1(nwji)(nwji)(nwj
28、i)(nxi)(nwji1.7.1Hebbian 學習規則 神經心理學家(neuropsychologist)Hebb 在他的一本書中寫著 7 當神經元 A 的軸突與神經元 B 之距離,近到足以激發它的地步時,若神經元 A 重複地或持續地扮演激發神經元 B 的角色,則某種增長現象或新陳代謝的改變,會發生在其中之一或兩個神經元的細胞上,以至於神經元 A 能否激發神經元 B 的有效性會被提高。因此我們得到以下的學習規則:)(),()()1(nxnyFnwnwijjiji這種 Hebbian 學習規則屬於前饋(feedforward)式的非監督學習規則。以下是最常使用的型式:)()()()1(nxn
29、ynwnwijjiji(1.14)(1.15)1.7.2錯誤更正法則(1)錯誤更正法則的基本概念是,若類神經元的真實輸出值 與期望的目標值 不同時,則兩者之差,定義為誤差信號誤差信號:我們可以選擇一特定的代價函數(cost function)來反應出誤差信號的物理量;錯誤更正法則的終極目標,就是調整鍵結值使得代價函數值越來越小,亦即使類神經元的真實輸出值,越接近目標值越好,一般都採用梯度坡降法(gradient decent method)來搜尋一組鍵結值,使得代價函數達到最小。)()()(nyndnejjj)(nyj)(ndj1.7.2錯誤更正法則(2)一、Windrow-Hoff 學習法
30、代價函數定義為:因此根據梯度坡降法可得:此學習規則,有時候亦被稱為最小均方演算法(least square error algorithm)。2)()(21)(jjjjjnvndneE)()(nwEnwjj)()()()(nxnxnwndTjj)()()(nxnvndjj(1.18)2)()()(21jTjjnxnwnd(1.19)1.7.2錯誤更正法則(3)二、Delta 學習法 使用此種學習法的類神經網路,其活化函數都是採用連續且可微分的函數型式,而代價函數則定義為:因此根據梯度坡降法可得:實際上,若 時,則 Widrow-Hoff 學習可視為 Delta 學習法的一項特例。2)()(21
31、)(jjjjjnyndneE)()(nwEnwjj(1.20)(1.21)()()()(nxnvnondjjj)()(nvnvjj1.7.3競爭式學習法 競爭式學習法有時又稱為贏者全拿(winner-take-all)學習法。步驟一:得勝者之篩選步驟一:得勝者之篩選 假設在此網路中有 K 個類神經元,如果 那麼第 k 個類神經元為得勝者。步驟二:鍵結值之調整步驟二:鍵結值之調整)()(max)()(,2,1nxnwnxnwTjKjTkkjifkjifnwnxnwjj0)()()(1.22)(1.23)1.8 結語 首先簡單地介紹了生物神經網路,接下來引進了模仿生物神經元運作模式的類神經元模型,以及依據此類神經元模型所建立之網路架構。了解生物神經元如何處理資訊之後,在我們心理會不會有以下這些問題:(1)我們有所謂的自由意志嗎?還是只由一堆我們有所謂的自由意志嗎?還是只由一堆神經元所構成的狀態機神經元所構成的狀態機(state machine)而已?而已?(2)意志扮演何種角色以及如何去激發神經元意志扮演何種角色以及如何去激發神經元呢?呢?。