chatGPT核心原理 + AI開源項(xiàng)目匯總

我用gpt-3.5-turbo總結(jié)了本視頻的分點(diǎn)摘要:
1. [0:00:00] 本視頻主要分享關(guān)于ai和ChatGPT更深度的知識(shí)和信息。
2. [0:00:07] 上一個(gè)視頻已經(jīng)介紹了ai的核心趨勢(shì)和使用價(jià)值,收獲了超過1萬個(gè)收藏。
3. [0:01:35] GPT項(xiàng)目的學(xué)術(shù)脈絡(luò)包括:源頭的transformer項(xiàng)目、GPT的發(fā)展及迭代、GPT3的強(qiáng)大實(shí)力。
4. [0:02:25] 圖中紅色是GPT系列和其變體,綠色是谷歌發(fā)展的相關(guān)思想,白色是將transformer思想應(yīng)用到其他領(lǐng)域。
5. [0:01:00] 視頻被拆分成兩部分,此部分主要講學(xué)術(shù)前沿,包括從ChatGPT出現(xiàn)到最新趨勢(shì)。
6. [0:01:18] 另一部分主要講開源社區(qū)最核心的項(xiàng)目及最新進(jìn)展。
7. [0:03:03,81] transformer在17年發(fā)布,其中attention is all you need的提升在注意力機(jī)制上。
8. [0:04:18,67] GPT1在18年出現(xiàn),GPT2在19年出現(xiàn),GPT2是過渡項(xiàng)目,而GPT3把參數(shù)規(guī)模放大100倍并取得了顯著提升。
9. [0:05:03,07] GPT3是一個(gè)游戲規(guī)則的變革者,成為GPT系列論文數(shù)量暴增的原因。
10. [0:05:15,88] InstructGPT和ChatGPT在2022年底到2023年之間出現(xiàn),現(xiàn)在正處于這個(gè)階段。
11. [0:03:15,72] Transformer使得視覺和文字可以使用相同的模型來訓(xùn)練,實(shí)現(xiàn)了多模態(tài)的可能。
12. [0:04:24,47] Attention is all you need最初只是想在翻譯小領(lǐng)域上提升效果。
13. [0:05:41,76] Transformer最初出現(xiàn)用于翻譯任務(wù),但其思想和組件都可以運(yùn)用到其他領(lǐng)域,如聲音、圖像等,因此被廣泛使用。
14. [0:06:25,11] Transformer的一個(gè)優(yōu)勢(shì)是建立全局連接,善于處理時(shí)序信息,能夠記住處理過的信息,能夠支撐不定長的信息處理,因此成為AI領(lǐng)域的基石。
15. [0:07:11,37] Transformer通過設(shè)計(jì)使得每次處理信息時(shí)能夠把信息作為一個(gè)整體,從而更深入地理解持續(xù)性信息,解決AI領(lǐng)域的難點(diǎn)。
16. [0:07:31,43] Transformer的結(jié)構(gòu)非常簡(jiǎn)單,在越簡(jiǎn)單的情況下往往越通用,使其除了文字之外還可以支撐其他領(lǐng)域的處理。
17. [0:08:04,63] OpenAI使用Transformer的解碼器并進(jìn)行訓(xùn)練后,發(fā)現(xiàn)這個(gè)模型具有非常強(qiáng)的效果。
18. [0:05:35,46] GPT3是一個(gè)變革者,InstructGPT和ChatGPT是后續(xù)重要的項(xiàng)目,還通過Transformer實(shí)現(xiàn)了多模態(tài)訓(xùn)練的可能。
19. [0:08:22,76] Transformer的優(yōu)勢(shì)是全局連接和處理時(shí)序信息,適用于處理不定長和持續(xù)性信息。
20. [0:08:46,92] Transformer可以使用無標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練,通過預(yù)測(cè)時(shí)序數(shù)據(jù)的下一個(gè)數(shù)據(jù)來提高模型性能。
21. [0:09:19,81] GPT系列在Transformer上進(jìn)行改進(jìn),發(fā)現(xiàn)使用巨量數(shù)據(jù)預(yù)訓(xùn)練后,只需要進(jìn)行簡(jiǎn)單微調(diào)即可應(yīng)用到其他領(lǐng)域。
22. [0:10:28,24] GPT2提出了通過訓(xùn)練巨量數(shù)據(jù)獲取的模型,在微調(diào)之后可用于細(xì)分文字領(lǐng)域的其他分類任務(wù)。
23. [0:10:45,95] 文字領(lǐng)域有很多細(xì)分分類任務(wù),如對(duì)文字的分類、文字的簡(jiǎn)化等。
24. [0:09:55,58] 微調(diào)和預(yù)訓(xùn)練是GPT系列的重要特性,將在后面詳細(xì)講解。
25. [0:11:00] Transformer基于時(shí)序數(shù)據(jù)可以無標(biāo)注進(jìn)行訓(xùn)練,GPT系列將預(yù)訓(xùn)練模型應(yīng)用到細(xì)分文字領(lǐng)域的任務(wù)中。
26. [0:11:12] 之前AI研究中,一個(gè)子分類必須單獨(dú)訓(xùn)練一個(gè)專門使用的模型,而Transformer通過訓(xùn)練足夠多的數(shù)據(jù)后可以將模型遷移到不同的領(lǐng)域。
27. [0:12:04] GPT2提出,只要告知模型所要做的任務(wù)即可完成,無需微調(diào)。模型足夠大后,即使在其他細(xì)分領(lǐng)域表現(xiàn)不佳,也可以運(yùn)用在其他領(lǐng)域。
28. [0:13:11] GPT3將模型的參數(shù)放大100倍,達(dá)到1750億,且發(fā)現(xiàn)了非常強(qiáng)的通用能力。
29. [0:13:39] GPT3嘗試把模型運(yùn)用于其他領(lǐng)域,而不是直接運(yùn)用于別的領(lǐng)域。
30. [0:13:43] ChatGPT實(shí)際上只是在GPT3的基礎(chǔ)上增加了一些對(duì)齊,以防止模型的胡言亂語和違規(guī)的話。
31. [0:13:45,37] GPT3的應(yīng)用不僅限于細(xì)分文字領(lǐng)域,可以運(yùn)用于其他領(lǐng)域,需以提示詞或例子作為輸入。
32. [0:13:52,73] GPT2是零樣本學(xué)習(xí),GPT3是一次或少量樣本學(xué)習(xí)。
33. [0:14:15,37] GPT3通過示例輸入來完成其他領(lǐng)域任務(wù),在參數(shù)上放大100倍后,模型效果有了巨大提升。
34. [0:14:50,78] GPT3的表現(xiàn)呈現(xiàn)出模型規(guī)模和模型表現(xiàn)的正相關(guān)關(guān)系,不斷增加參數(shù)可以提升模型效果。
35. [0:15:28,84] GPT和Transformer的性能榮耀有待挖掘,當(dāng)前最大模型是谷歌的PaLM,擁有5000億的參數(shù)。
36. [0:16:02,29] 虛線表示Bard plus plus,是當(dāng)前行業(yè)模型的最高水平。
37. [0:16:09,50] GPT-3模型現(xiàn)在處于行業(yè)領(lǐng)先水平,隨著參數(shù)增加,其表現(xiàn)會(huì)有顯著提升。
38. [0:16:24,79] GPT-3模型在不同領(lǐng)域都可以達(dá)到或超過行業(yè)最頂尖水平。
39. [0:16:48,20] GPT-3模型具備one shot學(xué)習(xí)能力,輸入一個(gè)樣本就可以顯著提升其表現(xiàn)。
40. [0:17:23,32] GPT-3模型具有泛用性,可以應(yīng)用于不同領(lǐng)域。
41. [0:17:40,08] GPT-3模型實(shí)現(xiàn)了ai范式的變革,通過微調(diào)和預(yù)訓(xùn)練達(dá)到了真正的通用性。
42. [0:18:19,84] 在GPT-3之前,各個(gè)子領(lǐng)域之間的模型都相互獨(dú)立。
43. [0:18:41,47] GPT-3具有泛用性和一次學(xué)習(xí)能力,成為通用的模型,創(chuàng)造了AI范式的變革。
44. [0:18:45,79] GPT-3通過預(yù)訓(xùn)練加上微調(diào),第一次使得微調(diào)變得有意義。
45. [0:19:10,89] GPT-3在1000億參數(shù)的規(guī)模下,不需要微調(diào),只需要通過提示詞就可以使AI具備不同的能力。
46. [0:19:33,52] 通過提示詞進(jìn)行one-shot learning和few-shot learning使得AI更加易用和具有開創(chuàng)性的變革。
47. [0:20:18,50] 微調(diào)的理解是將一個(gè)預(yù)先訓(xùn)練好的模型拿來在細(xì)分小領(lǐng)域里面進(jìn)行繼續(xù)訓(xùn)練下去。
48. [0:20:54,95] 由于調(diào)整1000億個(gè)數(shù)字的成本太高,微調(diào)是一種取巧的方法。
49. [0:21:17] 微調(diào)是為了提高模型在特定領(lǐng)域的專業(yè)性,避免重新訓(xùn)練的成本過高。
50. [0:22:20] 局部微調(diào)可以針對(duì)特定參數(shù)進(jìn)行微調(diào),常用于特定領(lǐng)域,如多模態(tài)文本與圖片結(jié)合。
51. [0:23:07] 外掛微調(diào)是通過一個(gè)子網(wǎng)絡(luò)來微調(diào)模型,可以無限嵌套。
52. [0:23:24] LoRA是一種圖片生成式AI模型,在生成圖像后可以根據(jù)需要進(jìn)行微調(diào)。
53. [0:23:38] Zero shot、one shot和few shot是指模型在少量或沒有樣本的情況下完成特定任務(wù)的能力。
54. [0:23:41,79] 微調(diào)可以提高模型的專業(yè)性,是一種節(jié)省成本的方法。
55. [0:23:41,79] 微調(diào)需要進(jìn)行g(shù)radient update,意味著每次要對(duì)參數(shù)進(jìn)行多次更新。
56. [0:24:03,75] 可以通過使用提示詞來引導(dǎo)直接輸出答案,例如翻譯英語成法語。
57. [0:24:39,42] 通過給出一個(gè)例子(one shot)可以提升AI翻譯的精確度。
58. [0:25:05,08] 給出多個(gè)例子后,翻譯準(zhǔn)確率的提升幅度會(huì)逐漸降低。
59. [0:25:29,06] Future模式中,使用舉例子的方式讓下屬快速上手任務(wù)。
60. [0:25:50,00] 對(duì)于任務(wù)快速變化的場(chǎng)景,使用Future模式比傳統(tǒng)的微調(diào)提升效率無數(shù)倍。
61. [0:26:12,85]?Future模式優(yōu)化的三個(gè)方向:優(yōu)化、遷移、融合;
62. [0:26:17,29]?優(yōu)化方向主要包括:模型結(jié)構(gòu)優(yōu)化、工程優(yōu)化、預(yù)訓(xùn)練優(yōu)化、微調(diào)(RLHF);
63. [0:27:14,20]?提示詞工程研究領(lǐng)域的探索:思維鏈;
64. [0:27:51,75]?評(píng)估大模型的能力是目前的難點(diǎn);
65. [0:28:09,08]?將Transformer/GPT的思想遷移到其他領(lǐng)域也是熱點(diǎn)研究;
66. [0:28:21,25]?AI的多模態(tài)多輸出融合是一個(gè)重點(diǎn)研究方向;
67. [0:28:24,64] AI能夠從文字到圖片、聲音和視頻,理解不同媒介上的相同概念,包括多模態(tài)和多輸出。
68. [0:29:11,90] AI能夠衍生到其他領(lǐng)域和平臺(tái),甚至延伸到現(xiàn)實(shí)世界,控制現(xiàn)實(shí)機(jī)器人。
69. [0:29:41,08] AI未來的優(yōu)化方向包括模型層的優(yōu)化、結(jié)構(gòu)層的優(yōu)化、預(yù)訓(xùn)練的優(yōu)化和應(yīng)用層的優(yōu)化。
70. [0:30:54,03] 模型是AI的根基,F(xiàn)acebook開源的LLAMA模型是一個(gè)非常重要的節(jié)點(diǎn)。
71. [0:30:39,66] AI開源社區(qū)的熱門方向包括模型、多任務(wù)垂直化、前端和使用以及資源匯總和圖片語音應(yīng)用。
72. [0:30:52,11] AI模型的發(fā)展對(duì)于應(yīng)用和創(chuàng)業(yè)的同學(xué)來說至關(guān)重要。
73. [0:31:02,95] LLAMA模型有多個(gè)尺寸,包括6b、13b等,一般使用消費(fèi)級(jí)的門檻,具有比較好的表現(xiàn)。
74. [0:31:29,14] 羊駝模型的不同尺寸基于最初的LLAMA模型,如alpaca、reka等,一般都基于6b和13b的尺寸。
75. [0:32:16,66] 6b基本上能達(dá)到及格的水平,13b能達(dá)到八九十分的水平,在一些比較簡(jiǎn)單和通用的任務(wù)上。
76. [0:32:28,89] 6b的參數(shù)還是一個(gè)消費(fèi)級(jí)的門檻,是性能和成本的平衡點(diǎn)。
77. [0:33:22,00] LLAMA有四個(gè)版本,分別為7b、13b、33b和65b,使用的訓(xùn)練數(shù)據(jù)不同。
78. [0:33:32,41] LLAMA的6.7b版本有時(shí)被稱為6b,有時(shí)被稱為7b,本質(zhì)上是一樣的。
79. [0:33:34,50] 不同的GPT模型在訓(xùn)練數(shù)據(jù)和規(guī)模上存在差異
80. [0:34:05,21] ChatGPT的模型基礎(chǔ)上進(jìn)行微調(diào),尺寸對(duì)性能有顯著影響
81. [0:34:44,67] 不同領(lǐng)域?qū)δP偷谋憩F(xiàn)存在差異
82. [0:35:18,65] 模型尺寸的選擇取決于任務(wù)需求
83. [0:35:51,88] Vicuna自稱性能接近Bard和ChatGPT 4
84. [0:36:12,15] 用打擂臺(tái)的方式比較模型性能
85. [0:36:12] 模型比較: 列出了幾個(gè)模型,包括alpaca Vicuna、WizardLM、ChatGLM、RWKV。
86. [0:36:55] 多任務(wù)和代理: LangChain和AutoGPT是多任務(wù)和代理的主要項(xiàng)目,前者是一個(gè)平臺(tái),后者包裝成了一個(gè)更完整的產(chǎn)品。
87. [0:38:55] 垂直化: 垂直化是AI的一個(gè)非常重要的細(xì)分領(lǐng)域。
88. [0:37:21] LangChain: LangChain可以使得GPT除了回答問題之外,還可以使用他的回答來完成各種各樣不同的任務(wù)。
89. [0:37:46] AutoGPT: AutoGPT是一個(gè)更完整的產(chǎn)品,可以把一個(gè)任務(wù)拆分到一個(gè)很細(xì)的程度,最終生成一份比較完整的報(bào)告或者結(jié)果。
90. [0:36:38] RWKV: RWKV是一個(gè)小說和二次元領(lǐng)域訓(xùn)練的模型。
91. [0:43:06,19] 垂直化是AI的一個(gè)很重要的細(xì)分領(lǐng)域。
92. [0:43:17,71] 可以先查詢特定領(lǐng)域的知識(shí)和信息,再用AI進(jìn)行處理,是一種外掛式的使用AI的方法。
93. [0:43:31,23] 進(jìn)行預(yù)訓(xùn)練是更深入的AI應(yīng)用,雖然成本更高,但結(jié)果更持久穩(wěn)固。
94. [0:44:24,36] 前端使用是讓GPT更容易被使用的一個(gè)重要領(lǐng)域,基于GPT的API可以搭建網(wǎng)站、微信公眾號(hào)、QQ群等等。
95. [0:44:53,23] Gradio是一個(gè)可以方便地生成前端試用網(wǎng)頁的AI項(xiàng)目,但目前在民間使用較少。
96. [0:45:06,81] 右側(cè)的川虎項(xiàng)目是一個(gè)為GPT提供接口的應(yīng)用,使得GPT可以更方便地被使用。
97. [0:45:53,32] 介紹了Awesome系列,即整合相關(guān)領(lǐng)域所有資源的一種做法。
98. [0:46:26,42] 在圖片和語音領(lǐng)域的項(xiàng)目中,最重要的項(xiàng)目是stable diffusion的web ui的版本。
99. [0:47:01,11] AI具備極大的潛力,可以被應(yīng)用在很多領(lǐng)域,節(jié)省成本,提高效率。
100. [0:47:22,59] 創(chuàng)業(yè)者可以關(guān)注開源領(lǐng)域,因?yàn)殚_源領(lǐng)域最活躍、最有生命力,并且最低成本應(yīng)用到自己的生活中。
101. [0:47:39,92] 下期將分享最核心的AI共享平臺(tái)以及試用超過100項(xiàng)的AI工具的評(píng)測(cè)結(jié)論。