B站強(qiáng)推!這可能是唯一能將知識(shí)圖譜講明白的教程了,不愧是清華教授,半天時(shí)間將入門(mén)

[[人工智能博士]]
歡迎大家選修知識(shí)圖譜這門(mén)課程
我是主講老師陳華軍
來(lái)自浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
在這一講中
我想先對(duì)知識(shí)圖譜的來(lái)龍去脈
做一個(gè)概論性的介紹
我們將首先從語(yǔ)言和知識(shí)兩個(gè)視角闡明
知識(shí)圖譜是實(shí)現(xiàn)認(rèn)知人工智能的關(guān)鍵一環(huán)
然后我們會(huì)追溯知識(shí)圖譜的發(fā)展歷史來(lái)說(shuō)明
知識(shí)圖譜不僅和人工智能有關(guān)系
而且具有非常強(qiáng)烈的互聯(lián)網(wǎng)基因
接下來(lái)我們希望全面地探討
知識(shí)圖譜的廣泛應(yīng)用價(jià)值
同時(shí)知識(shí)圖譜也并非一個(gè)抽象空洞的概念
它有自己非常明細(xì)的技術(shù)內(nèi)涵和技術(shù)邊界
我們希望通過(guò)第一講讓大家了解到
不論是從人工智能
大數(shù)據(jù)還是互聯(lián)網(wǎng)的視角
知識(shí)圖譜都是非常重要的技術(shù)發(fā)展方向
首先我們從語(yǔ)言和知識(shí)兩個(gè)視角出發(fā)
引出我們這門(mén)課的主角知識(shí)圖譜
我們的故事從人工智能的起源開(kāi)始
大家可能都有所了解
早期的人工智能有兩個(gè)主要的流派
一個(gè)流派稱(chēng)為連接主義
主張智能的實(shí)現(xiàn)應(yīng)該模擬人腦的生理結(jié)構(gòu)
即用計(jì)算機(jī)模擬人腦的神經(jīng)網(wǎng)絡(luò)連接結(jié)構(gòu)
這個(gè)流派發(fā)展至今
即所謂大紅大紫的深度學(xué)習(xí)
另外一個(gè)流派稱(chēng)為符號(hào)主義
主張智能的實(shí)現(xiàn)應(yīng)該模擬人類(lèi)的心智
即用計(jì)算機(jī)符號(hào)記錄人腦的記憶
表示人腦中的知識(shí)等
即所謂知識(shí)工程與專(zhuān)家系統(tǒng)
我們這門(mén)課的主角
知識(shí)圖譜可以歸屬于符號(hào)主義的流派
深度學(xué)習(xí)首先在視覺(jué)
聽(tīng)覺(jué)等感知任務(wù)中獲得成功
本質(zhì)上解決的是識(shí)別和判斷的問(wèn)題
我們可以打個(gè)比方
實(shí)現(xiàn)的是一種聰明的ai
但感知還是低級(jí)的智能
人的大腦依賴(lài)所學(xué)的知識(shí)進(jìn)行思考推理
理解語(yǔ)言等等
因此還有另外一種ai可以稱(chēng)為有學(xué)識(shí)
有知識(shí)的ai
事實(shí)上
這兩種ai對(duì)于實(shí)現(xiàn)真正的人工智能都很重要
缺一不可
那么什么叫認(rèn)知智能
認(rèn)知智能有兩個(gè)核心的研究命題
一個(gè)是語(yǔ)言理解
另外一個(gè)就是知識(shí)的表示
人類(lèi)通過(guò)認(rèn)識(shí)世界來(lái)積累關(guān)于世界的知識(shí)
通過(guò)學(xué)習(xí)到的知識(shí)來(lái)解決碰到的問(wèn)題
比如一個(gè)醫(yī)生利用他的醫(yī)學(xué)知識(shí)來(lái)給病人看病
而語(yǔ)言則是知識(shí)最直接的載體
目前為止
人類(lèi)的絕大部分知識(shí)都是通過(guò)自然語(yǔ)言來(lái)描述
記錄和傳承的
同時(shí)
反過(guò)來(lái)正確地理解語(yǔ)言
又需要知識(shí)的幫助
這里有個(gè)有趣的段子
馬云對(duì)秘書(shū)說(shuō)
中午幫我買(mǎi)肯德基
30分鐘后
秘書(shū)回來(lái)說(shuō)
買(mǎi)好了
一共4.6億美元
這當(dāng)然是一個(gè)玩笑
但馬云的螞蟻金服的確投資了肯德基的母公司
百勝餐飲集團(tuán)
當(dāng)然我們這里關(guān)注的是背景知識(shí)
對(duì)于理解語(yǔ)言的重要性
比如假如馬云的秘書(shū)是一個(gè)人工智能
他在第一個(gè)語(yǔ)境中
應(yīng)該把肯德基識(shí)別為一種食品
而在第二個(gè)語(yǔ)境中
應(yīng)該把肯德基識(shí)別為一家公司
而且他還需要知道
肯德基的母公司是百勝螞蟻投資的百勝
而馬云是螞蟻的實(shí)際控制人
才能正確地判斷馬云和肯德基之間的關(guān)系
這就是知識(shí)圖譜
事實(shí)上
我們每個(gè)人的大腦里面都有大量這種類(lèi)型的
關(guān)于萬(wàn)事萬(wàn)物的知識(shí)圖譜
我們極大的依賴(lài)這些背景知識(shí)
來(lái)準(zhǔn)確地理解語(yǔ)言和正確的做出判斷
那到底什么是知識(shí)
柏拉圖說(shuō)
知識(shí)是justify to belief
實(shí)際上
人類(lèi)的自然語(yǔ)言以及創(chuàng)作的繪畫(huà)音樂(lè)
數(shù)學(xué)語(yǔ)言
物理模型
化學(xué)公式等
都是人類(lèi)知識(shí)的表示形式和傳承的方式
而具有獲取表示和處理知識(shí)的能力
是人類(lèi)心智
區(qū)別于其他物種心智的最本質(zhì)的特征
所以傳統(tǒng)的人工智能領(lǐng)域
有一個(gè)經(jīng)典的研究方向
叫做知識(shí)工程和專(zhuān)家系統(tǒng)
這種經(jīng)常被稱(chēng)為是good old fashion的ai的基本思想是
建立一個(gè)系統(tǒng)
能夠從專(zhuān)家的大腦獲取知識(shí)
這個(gè)從人腦獲取知識(shí)的過(guò)程就叫做知識(shí)工程
再通過(guò)一個(gè)推理引擎來(lái)為非專(zhuān)家用戶(hù)提供服務(wù)
比如輔助診斷判案等等
如前所述
自然語(yǔ)言是人類(lèi)知識(shí)最主要的表達(dá)載體
既然人腦能夠通過(guò)閱讀
來(lái)從文本獲取和學(xué)習(xí)知識(shí)
機(jī)器老也應(yīng)該具備從文本中抽取知識(shí)的能力
但文本字符串似乎對(duì)機(jī)器不太友好
機(jī)器在理解人類(lèi)語(yǔ)言方面仍然步履維艱
比如類(lèi)似于微軟小冰
蘋(píng)果siri
小米小愛(ài)音箱等產(chǎn)品
在人機(jī)對(duì)話(huà)方面的體驗(yàn)仍然面臨巨大的挑戰(zhàn)
當(dāng)前通過(guò)機(jī)器來(lái)理解文本中的知識(shí)
有兩大主要的技術(shù)路線(xiàn)
第一種是抽取技術(shù)
例如從文本中識(shí)別實(shí)體關(guān)系
復(fù)雜的邏輯結(jié)構(gòu)等等
第二種就是文本預(yù)訓(xùn)練
也就是通過(guò)大量的文本語(yǔ)料來(lái)訓(xùn)練
一個(gè)神經(jīng)網(wǎng)絡(luò)大模型
文本中的知識(shí)被隱含在參數(shù)化的向量模型中
而向量化的表示和神經(jīng)網(wǎng)絡(luò)是對(duì)機(jī)器友好的
所以文本本身也可以作為一種knowledge base
知識(shí)圖譜是我們這門(mén)課的主角
簡(jiǎn)單地說(shuō)
知識(shí)圖譜旨在利用圖的結(jié)構(gòu)建模
識(shí)別和推斷事物之間的復(fù)雜關(guān)聯(lián)關(guān)系
并沉淀領(lǐng)域的知識(shí)
已經(jīng)被廣泛地應(yīng)用于搜索引擎
智能問(wèn)答
語(yǔ)言語(yǔ)義的理解
大數(shù)據(jù)的決策分析
智能物聯(lián)等眾多領(lǐng)域
知識(shí)圖譜是一種結(jié)構(gòu)化的知識(shí)表現(xiàn)形式
相比起文本而言
結(jié)構(gòu)化的數(shù)據(jù)更易于被機(jī)器處理
比如查詢(xún)和問(wèn)答
同時(shí)圖的結(jié)構(gòu)比起單一的字符串序列
能夠表達(dá)更為豐富的語(yǔ)義和知識(shí)
對(duì)于機(jī)器而言
圖結(jié)構(gòu)比文本更加友好
深度學(xué)習(xí)或者更為準(zhǔn)確地說(shuō)是表示學(xué)習(xí)的心情
表明參數(shù)化的向量和神經(jīng)網(wǎng)絡(luò)
是適于完成快速計(jì)算的信息載體
比如我們?cè)谧匀徽Z(yǔ)言中
可以為每個(gè)詞學(xué)習(xí)一個(gè)向量表示
我們也可以為視覺(jué)場(chǎng)景中的每一個(gè)對(duì)象
學(xué)習(xí)一個(gè)向量的表示
為知識(shí)圖譜中的每一個(gè)實(shí)體學(xué)習(xí)一個(gè)向量表示
我們通常把這些對(duì)象的向量化表示
稱(chēng)為embedding或distributed vector representation
如圖所示
我們將所有數(shù)字對(duì)象的向量表示
投影到向量空間
我們會(huì)發(fā)現(xiàn)同一個(gè)數(shù)字對(duì)象的不同圖像的向量
在空間距離更近
進(jìn)一步
我們通過(guò)將詞語(yǔ)
實(shí)體對(duì)象關(guān)系等都投影到向量空間
就可以更加方便地在向量空間對(duì)這些語(yǔ)言
視覺(jué)和實(shí)體對(duì)象進(jìn)行操作
甚至可以利用神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)邏輯推理
這將是我們這門(mén)課的最重要的話(huà)題之一
我們這門(mén)課的主角知識(shí)圖譜
本質(zhì)上可以看作是一種世界模型
word model
縱觀人工智能相關(guān)方向的發(fā)展歷史
一直有一個(gè)核心的命題是尋找合適的萬(wàn)物
機(jī)器表示用于記錄有關(guān)世界的知識(shí)
在傳統(tǒng)的專(zhuān)家系統(tǒng)時(shí)代
人們發(fā)明了描述邏輯等符號(hào)化的知識(shí)表示方法
來(lái)描述萬(wàn)物
人類(lèi)的自然語(yǔ)言
也是符號(hào)化的描述客觀世界的表示方法
到了互聯(lián)網(wǎng)時(shí)代
人們又設(shè)想用本體和語(yǔ)義
鏈接有關(guān)萬(wàn)物的數(shù)據(jù)和知識(shí)
這也是知識(shí)圖譜的起源之一
隨著表示學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的興起
人們發(fā)現(xiàn)數(shù)字化的向量表示
更易于捕獲那些隱藏的不易于明確表示的知識(shí)
并且比起符號(hào)表示更易于機(jī)器處理知識(shí)圖譜
同時(shí)擁抱機(jī)器的符號(hào)表示和向量表示
并能將兩者有機(jī)地結(jié)合起來(lái)
解決搜索問(wèn)答
推理分析等多個(gè)方面的問(wèn)題
關(guān)于這一點(diǎn)的介紹也將貫穿這門(mén)課程的始終
最后我們做一個(gè)小結(jié)
人的大腦依靠所學(xué)的知識(shí)進(jìn)行思考和推理
具有表示學(xué)習(xí)和處理知識(shí)的能力
是人類(lèi)心智區(qū)別于其他物種最根本的區(qū)別
語(yǔ)言是知識(shí)的最主要的表示載體
語(yǔ)言與知識(shí)是實(shí)現(xiàn)認(rèn)知智能最重要的兩個(gè)方面
知識(shí)圖譜是一種結(jié)構(gòu)化的知識(shí)表示方法
相比于文本更易于被機(jī)器查詢(xún)和處理
語(yǔ)言與知識(shí)的向量化表示
以及利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語(yǔ)言理解與知識(shí)的處理
是目前最重要的技術(shù)發(fā)展趨勢(shì)之一
這一小節(jié)就講到這里
謝謝大家