Transformer結構暗含圖神經網(wǎng)絡可能成為深度學習的大統(tǒng)一模型
從某種意義上來說Transformer超越了圖神經網(wǎng)絡。
首先Transformer通過自注意力機制計算了一句話中兩個單詞之間的相對關系,每個單詞可以看作圖的一個節(jié)點,相當于自注意力機制擬合了輸入集合元素之間的圖關系。
因為自注意力機制計算了輸入的集合中兩兩元素之間的關系的評分,而這種評分就可以看作是圖中的度規(guī)。
將輸入集合中的每個元素都與其他元素進行評分的計算之后,就相當于構建出了一個輸入集合元素之間的拓撲關系。從而隱式的構建了一個圖結構。這個圖結構就儲存在我們訓練好的神經網(wǎng)絡的參數(shù)中。并且這個圖結構也就是輸入集合元素之間的拓撲關系是我們通過訓練讓神經網(wǎng)絡自動學習到的。

其次Transformer通過位置編碼使之可以接受一個序列的輸入。
所以Transformer既可以處理具有圖結構的對象,又可以處理序列。
取消位置編碼,可以使Transformer變成一個處理具有圖結構而不具有序列性質輸入的神經網(wǎng)絡。
比起使用鄰接矩陣這種方法來表述圖結構這種非歐式結構,Transformer這種“軟表示方法”,即,把圖結構暗含在神經網(wǎng)絡中的表示方法可能能更好的表示非歐式拓撲結構。
所以說也許不是圖神經網(wǎng)絡可以作為大統(tǒng)一模型涵蓋Transformer,而是Transformer可能成為大統(tǒng)一模型而涵蓋圖神經網(wǎng)絡。
這也解釋了為什么大語言模型ChatGPT可以通過輸入分子結構中兩原子之間的相互連接關系來判斷它屬于哪一類的有機化合物。

也就是說Transformer本身就通過自注意力機制具有了圖神經網(wǎng)絡的推理屬性。
Transformer可能擁有比圖神經網(wǎng)絡更低的計算量以及更好更全面的性能,并且它也有可能涵蓋所有的網(wǎng)絡的模型結構成為第一個大統(tǒng)一模型的雛形。
圖片引用參考
[1]?《神經網(wǎng)絡與深度學習》邱錫鵬
[2] https://www.zhihu.com/question/528852359/answer/2947017864?utm_source=qq&utm_medium=social&utm_oi=1151471599730483200