
第三次AI浪潮所興起的機器學習有許多種手法,最受矚目的就是深度學習。然而,深度學習只是由監督式學習下的類神經網路 (Neural Network, NN) 所演化出來的,經過這幾年不斷的演化,已從只能處理監督式學習問題擴展到非監督式和強化學習,人工智慧、機器學習和深度學習彼此間之關係及其演進如圖1所示。

因此,類神經網路(NN)是深度學習的基礎,簡言之,它是一種模仿人腦神經組織(又稱神經元)數學模型化的機制。目前AI晶片的發展則多半在處理深度學習類型的問題,而非處理傳統機器學習及真正人工智慧的問題。為了了解深度學習晶片或神經網路(NN)晶片的運作,得先了解組成「神經網路 (NN)」之神經元結構及其工作原理。
神經元 (neuron),又名神經細胞 (nerve cell),是神經系統的結構與功能單位之一,其結構如圖2所示。人腦的活體神經細胞包括突觸 (Synapses)、樹突 (Dendrites)、細胞體 (Cell Body) 和軸突 (Axon)等四個主要功能組成,其相互運作關係及功能簡述如下:
- 細胞體 (cell body):由細胞質基質、細胞器和細胞核組成,故細胞核位於其中。細胞體是神經元蛋白質合成的主要場所,其運作係由此發出突起,樹突 (dendrites) 伸展到周圍的神經組織,從突觸中收集脈衝,並將脈衝傳回神經元的心臟,此即細胞體運作功能。
- 樹突 (Dendrites):是一群由細胞體發出多分支的樹狀突起,它可以是神經元的輸入通道,其功能是將自其他神經元所接收的動作電位 (電信號) 傳送至細胞本體;樹突也可以是神經元的訊息接收站,因與其他神經元的軸突 (Axon) 連接而把傳入的訊息送至神經元的本體。
- 突觸 (Synapses):訊號權重神經元和神經元相接處即稱為突觸 (synapse),因此是神經元之間通信的特異性接頭 (junction),其分散在樹突樹根狀纖維的表面上,依訊號傳遞的方向則可將神經元分為「突觸前神經元 (presynaptic neuron)」與「突觸後神經元 (postsynaptic neuron)」。神經元之間的突觸可以分為化學突觸 (chemical synapse)和電突觸 (electrical synapse)兩大類。
- 軸突 (Axon):即神經細胞之細胞體長出突起。大量軸突牽連一起,以其外型類似而稱為神經纖維。於神經系統中,軸突是主要神經信號傳遞的渠道,功能為將細胞體之動作電位 (電信號或稱輸出脈衝) 傳導到神經組織,最終傳導至在其他細胞之樹突上末端的突觸 (synapse)。

為了能處理更複雜的問題,一個神經元可擴展成一組簡單 (單層) 神經網路,如圖4所示,會有輸入層、隱藏層 (Hidden Layer) 及輸出層,推論和訓練的概念與一個神經元大致相同。

由於深度學習是透過模仿人腦的「類神經網路」建構多層神經網路來逐層學習大量資料,並將其應用於解決問題的手法。神經網路模型可用於處理各種類型之資料。學習資料則是由輸入資料以及相對應的正確解答所組成,而訓練及機器學習可用以判定待藉由模型用於處理輸入資料之一係數集,即神經網路模型之神經元之間的權重。以影像辨識為例,神經網路模型可經訓練以辨識經接收輸入影像內是否存在某些類型之物件,為了讓AI學習類神經網路的模型,首先必須先將影像學習資料分割成像素資料,然後將各像素值輸進輸入層。接受了資料的輸入層,將像素值乘上「權重」後,便傳送給後方隱藏層的神經元。隱藏層的各個神經元會累加前一層所接收到的值,並將其結果再乘上「權重」後,傳送給後方的神經元。最後,經由輸出層的神經元的輸出,便可得到影像辨識的預測結果。為了讓輸出層的值跟各個輸入資料所對應的正解資料相等,會對各個神經元的輸入計算出適當的「權重」值。這個權重的計算,一般是使用「誤差倒傳遞演算法」(Error Back Propagation),使用與正解資料之間的誤差,從輸出層逆推回去。透過各「權重」的調整,來縮小輸出層的值與正解資料的值之間的誤差,以建立出完成學習的模型。
2006年辛頓 (Geoffrey Hinton) 開發出自動編碼器 (Autoencoder,簡稱自編碼),利用以自動編碼器所獲得的類神經網路權重參數值進行初始化,應用在「誤差倒傳遞演算法」以提高多層類神經網路的學習準確度。即在類神經網路的輸入層和輸出層使用相同資料,並將隱藏層設置於二者之間,藉此用來調整類神經網路之間的權重參數,從而使深度學習成為一種只要將資料輸入類神經網路便能自行抽出特徵的人工智慧,稱之為「特徵學習」(feature learning)。
與機器學習不同,深度學習分類不容易根據學習方法或目標進行分類。Asoh等人將深度學習分為確定性模型 (deterministic model) 和概率模型 (probabilistic model)[4]。確定性模型中的代表性演算法至少包括深度神經網路 (deep neural network)、遞歸神經網路 (recurrent neural network,RNN)、卷積神經網路 (convolution neural network,CNN)以及自動編碼器 (autoencoder)。至於概率模型,通常使用受限玻爾茲曼機 (restricted boltzmann machine,RBM)、深度玻爾茲曼機 (Deep Boltzmann Machines,DBM) 和深度置信網 (deep belief network,DBN)。表1整理出AI機器學習和深度學習中常見之演算法。

備註:
【本文僅反映專家作者意見,不代表本報及其任職單位之立場。】
|