斯坦福 2022 年 AI 指數報告精讀【論文精讀】

斯坦福2022年AI指數報告精讀
報告是由斯坦福下的一個機構HAI撰寫
全稱是以人為中心的人工智能,虛擬機構,是一個由李飛飛老師和另一位斯坦福做邏輯的老師共同建立
從2017年開始每年發(fā)布一個AI指數報告,今年第5期
2020年未發(fā)布

覆蓋面比較廣230頁
正文
8個重點

- 2021年私人投資在AI上增加很多,將近1000億美金投資,比2020年多1倍,投資更加集中
- 中美跨國研究合作最多
- 語言模型更強也更有偏見,2018年bert1億參數,2021年2800億參數模型生成出來的那些帶有偏見的有毒的結果增加了29%,因為大模型使用更大的數據,這些數據不像小數據那么能夠給你精心準備,而且大模型更容易把大數據里帶有偏見的一些東西顯現(xiàn)出來
- AI倫理文章越來越多
- AI變得越來越便宜,性能越來越高,訓練一個圖片分類器的開銷從2018年到現(xiàn)在相比的話下降了3.6%,訓練的時間縮短了94.4%,這是因為gpu做的越來越大了,如果不計算挖礦導致的GPU價格升高的話,其實他的成本是往下降的,而且我們現(xiàn)在能夠用更大的集群,用更好的算法能做分布式的訓練,所以它的整體計算時間是下降的
- 在報告的10個數據集上面,9個數據集最好的方法用了額外的數據
- 在全球范圍內關于AI的立法也越來越多了
- 機械臂變得越來越便宜了,在2017年平均一個機械臂的價格是4萬美金,現(xiàn)在基本只要一半的價格
技術發(fā)展曲線
剛剛冒出來-做大做便宜-更安全

很多突破性工作已經做出,這兩年沒有很大突破性工作
文章目錄

第一章論文專利情況

過去11年AI相關論文的個數,現(xiàn)在一年30萬篇,很多是同學們的練習題
99%的文章可能是沒有太多意義的,一年讀50篇已經是非常好了
文章類別
repository 是ArXiv文章未經過同行審議

雜志和會議比較認可為學術成果
雜志比會議賺錢要交版面費
論文標簽匯總

機器學習和模式識別的區(qū)別在于
模式識別講的是一個任務,在數據里面去識別某一個任務出來,比如圖片識別,目標檢測都是模式識別的任務
機器學習是其中的一個技術,可以使用機器學習技術解決模式識別
機器學習不一樣的地方是,從數據里面訓練一個模型,再去數據里面發(fā)現(xiàn)規(guī)律
每篇文章的作者都來自什么機構

發(fā)表國家劃分
美國情況

中國情況

中美科學家合作寫論文的數量

其他國家合作情況

雜志的文章主要來自哪些國家

所有雜志文章按國家劃分的總引用數

會議文章統(tǒng)計按國家分

會議引用數對比,中國的引用數還是比美國少很多

發(fā)在ArXiv上文章來自不同國家的情況分布
更關心文章影響力和跟別的科學家進行交流

發(fā)在ArXiv上文章引用數

AI相關的專利

分析比較大的會議的人數情況

第二章 技術的進展

目錄 按領域劃分



計算機視覺——圖片
圖片分類
ImageNet

按年份劃分準確率的提升情況

TOP5精度情況

ImageNet刷精度的必要沒有那么大,2017年就精度超過人類,但對計算機視覺圖片識別上還是有一點差距
對于各種情況的識別,數據不充分,很難收集足夠數據,齊全分類上還是有距離需要繼續(xù)做
大家都刷ImageNet的原因:
- 有名
- 沒有比ImageNet好很多的數據來能夠測試
- ImageNet數據集還是夠大,所以一個模型在上面表現(xiàn)得很好,比如A比B好,因此A很有可能在其他任務上也比B好,因此算是一個比較靠譜的數據集
圖片生成上進展很大

衡量指標FID
真實圖片和生成圖片的區(qū)別
衡量關系,高斯分布

STL-10數據集上的情況

Deepfake 檢測
GAN出來后
把一個人的換到另外一個人的臉上

出現(xiàn)了一些法律,禁止Deepfake用在一些領域
以防虛假信息生成等誤導大眾
主要數據集:FaceForensics++ 來自youtube主要判斷視頻的真假,用模型跑生成的視頻和真實視頻對比

名人數據集Celeb-DF

這一段判斷還沒有那么準確

人姿態(tài)估計
找關鍵點,做體育分析,人監(jiān)控,交通手語識別
傳感器采集,有場地限制

主要數據集:PCK
在Flickr上采集的2000張運動員圖片
判斷14個關節(jié)的不同位置

精度

Human3.6:3D的人姿勢識別
17種不同姿勢,判斷關節(jié)點的位置和真實位置的誤差

誤差已經縮小到2厘米

語義分割:對圖片的每一個像素去判斷他屬于哪一類

主要應用在無人車,看到地方什么是可以開的路面什么是人行道,什么地方是建筑,什么地方是天空,或者做一些圖片的分析,哪個是前景哪個是后景,比如相機照片背景模糊
醫(yī)療診斷里面判斷有沒有腫瘤
數據集Cityscapes
在50個城市里面開車然后錄下的一些視頻做分割

評測標準IoU
進展迅速

醫(yī)療圖片語義分割

兩數據集,精度提升
誤診傷害不大,漏診就嚴重

人臉檢測與識別
檢測把臉找出來,識別人是誰

識別檢測率誤差下降明顯

但是人臉識別的應用帶來了隱私的安全問題
有國家出臺法律禁止人臉技術在公共場合被使用
戴口罩的人臉檢測識別

錯誤率相對沒帶口罩還是大

視覺推理

視覺問答
給一個圖片問問題,判斷答案準確與否

進展顯著
水平線代表人回復的精度
只代表這個數據集,實際上和真實相比還有很長路要走

視覺——視頻
行為識別:給一段視頻判斷里面在干什么
比如有人在走路、揮手、和別人說話
重要數據集:Kinetics
youtube上找了幾十萬個視頻把它分類到不同的種類里面


三個數據集精度

時序動作定位任務:比如給700個小時視頻里面有200個不同的行為,需要找出一個動作是從哪開始到哪結束,判斷在視頻中的位置

精度還有很大提升空間

物體檢測-不太準確,這里應該放到圖片下,這里搞得像語義分割或實例分割
COCO雖然有物體檢測任務

目標檢測在計算機視覺的應用最廣泛,最多人研究,進展也不錯,COCO數據集的地位可以和ImageNet媲美
指標mAP

視覺常識推理

方向小眾,和人類還是有一段差距

NLP
英語語言理解
SuperGLUE數據集

任務
- 給一段文字,問一個問題
- 給一段文字,提出一個猜想,然后機器回答這些文字能不能支持猜想
- 提出一個前置 給出兩個選項,判斷哪個符合前置

進步大,超過人類

另外兩個數據集

文本摘要
給一段很長的話,把里面的重點摘出來

arXiv數據集,把所有論文爬下來,根據正文預測摘要
評估指標:ROUGE
即生成的摘要和數據集提供的真實的摘要里面的一些子片段的一個重合的一個評估
有一些進展,但過年兩年進展一般,還有很多空間可以去做

自然語言推理
給一句話,再給一句話,判斷下面移居話和上面一句話到底是沖突的關系還是沒有什么關系,或者后面一個關系是前面一句話的增強關系
這個三分類的任務進度還可以


拓展自然語言推理
有兩個觀察
給出兩個假設,判斷哪個符合觀察的結論
想象空間更多,更符合人類交流

精度快達到人類,但研究的還是很簡化的問題
從幾個選項中選擇對的,而不是要你把選項找出來

情感分析
對上牌好壞的判斷,或者大家對未來的一些正面還是負面

精度

機器翻譯
WMT數據集

評估指標 BLUE SCORE
判斷翻譯出來的句子和真實的句子那些子序列重合的個數

一般常用句子翻譯還可以效果,但是如果翻譯論文或者一些專業(yè)領域的翻譯會差一點,一些特殊領域還是有很多問題
過去一些年商業(yè)服務和開源服務的區(qū)別,沒有很多開源的預訓練模型,很多都是商業(yè)模型,因為翻譯是比較好的商業(yè)模式,所以機器翻譯一般還是大廠的游戲

語音
語音識別:講一段話,識別講的話是哪些詞

干凈版本VS不干凈版本(有噪音)
在有噪聲、口音、專業(yè)詞匯的情況下,精度不那么高

推薦系統(tǒng)

MovieLens數據集,是一個電影推薦網站
爬了2000萬個用戶看了哪些電影的記錄
來推薦要把那個電影推給哪些用戶
近幾年進展不那么迅速
不能代表整個推薦系統(tǒng)(不完備全面)

主要還是大廠干的,需要生態(tài),用戶,根據業(yè)務、產品形態(tài)
廣告點擊預測

一個廣告用戶會不會點
廣告點擊也是大廠的游戲
公開數據集不能很好的反應在真實的應用數據集的一個情況

強化學習
需要環(huán)境,每一次你的模型做一個行動,環(huán)境告訴你的行動是有獎勵還是有懲罰
環(huán)境就是數據集
Atari游戲平臺上的57個游戲,模型控制游戲機去玩游戲,根據里面的獎懲機制不斷調整算法目標是能夠拿到更高游戲的分數

進展很大

下棋

硬件
MLPerf:工業(yè)界的評測集來評測各個不同硬件系統(tǒng)和軟件系統(tǒng),在不同的模型上達到特定的精度所花的時間


一個任務最多用了多少加速器
GPU或TPU
代價太大

在ImageNet上訓練得到93%的top five精度的成本是怎樣子

機器人手臂

價格

每一年機械臂型號的一些特點
做機械臂用的一些技術

大部分數據來自paper with code
AI倫理

主要關心一個模型可能會對人造成的傷害
比如商業(yè)人臉識別系統(tǒng)可能有種族的歧視
簡歷篩選系統(tǒng)歧視女性,年齡
AI驅動的健康工具可能會在背后區(qū)分你的經濟地位
關注公平性,偏見

把年齡,性別,種族改了之后不會影響模型結果

公平、偏見指標

測試公平偏見的數據集和一些診斷指標

在NLP里面的一些偏見指標
毒性:語言不文明不禮貌

語言模型生成文本的時候,生成了有毒的文本的概率是怎樣子,不同訓練樣本,訓練毒性不一樣

DeepMind不同大小語言模型對毒性的一些敏感程度

語言模型消毒
模型性能可能下降

刻板印象指標
模型越大刻板印象增加

改進,bert

不同模型填空精度不一樣,模型大會好一些
性別填空

AI判定虛假消息

不同判斷的數據集的增長

案例分析CLIP模型里面的一些偏見

CLIP更容易把黑人的臉和非人類的動物名字和犯罪相關的名詞關聯(lián)更緊一些
CLIP判斷文本與圖片的相似度

經濟教育

不同地區(qū)里面所有在Linkein上的招聘帖里面要求有AI相關技能的百分比

這一塊不準確,數據都來自領英
哪些專業(yè)要求更多

行業(yè)招聘AI

州
