ChatGPT的信念與沒走的捷徑|對LLM的常見理解誤區(qū)|垂類模型有前途嗎?|大

我從課代表的視頻里學到很多,一直想充值,但是總感覺課代表的付費機制是 YouTube-First。我是想 May Bilibili Rise once more的。不過也不貴。至少付了錢了可以證明我不是個噴子,是真的來交流的。我分享下我的觀點,課代表可以隨時指正,這樣我們彼此才能快速correct our bias。這也是課代表之前視頻中的觀點
- In-context learning一定不更新權(quán)重。但是要持久化模型的能力一定需要更新權(quán)重。這個不展開細聊了
- 課代表認為 ML 工程師分為 LLM 工程師和傳統(tǒng)機器學習工程師。我覺得不存在這種東西。GPT 的 Paper 在傳統(tǒng)機器學習者看來是 NLP 領(lǐng)域一脈相承非常正統(tǒng)的論文。
- 所有人都在找 shortcuts。我覺得不能因為 OpenAI 成功的發(fā)現(xiàn)了 GPT-3.5 的涌現(xiàn)能力,就說別人是走了 shortcut,只有OpenAI 有 conviction。因為《Greatness cannot be planned》,這本書的作者,OpenAI 的 Kenneth Stanley 來我司做過演講,他大意說:科研就像尋寶,在你成功之前,沒有人知道寶藏埋在哪。太過功利反而會一事無成。而且其他公司的探索也不是沒有意義,他們之前的積累會讓他們在找到方向之后追趕地很快。當然確實OpenAI在科研探索上更有定力,因為他們不是目標驅(qū)動,而是研究價值驅(qū)動,他們是為了探索 something interesting 而不是為了把準確率提升多少多少。如 Kenneth 所說,如果是后者可能 GPT2 的失敗之后就不會有 GPT3。
- 但誰又能說 GPT 這條路就是終點呢?清華新推出的 RetNet 結(jié)構(gòu)效果比 Transformer更好。也有研究者分析發(fā)現(xiàn) Transformer 就是新時代的 SVM。我覺得 AI 領(lǐng)域正是勃勃生機,萬物競發(fā)的盛世。現(xiàn)在就說OpenAI贏了,為時過早。
- 而且 OpenAI 模型的那個規(guī)模是很難落地,真開源出來,在小參數(shù)量(20B以下)效果未必能比過開源模型,200B的模型誰用得起呢,能把這套東西跑起來的公司都不多。小模型在終端也是有很多機會的,畢竟效果不差太多但是成本低了非常多。除非有范式革命把大模型的推理成本降下來。而我覺得還是很有搞頭的,現(xiàn)在的 LLM 浪費很嚴重。
- 還有就是很多企業(yè)是絕對不會用 OpenAI 的 API 來做基座模型的。哪怕自己做效果會差一點,也會自己做。如何保證企業(yè)數(shù)據(jù)隱私權(quán)的前提下搞 2B 業(yè)務?可以請課代表和盧易分享下你們在LLM商業(yè)化上的見解。
- OpenAI 的 GPT5 需要范式創(chuàng)新,而不是單純堆參數(shù)。現(xiàn)在訓大模型就像發(fā)火箭,要多大的模型,就需要多少燃料(數(shù)據(jù)和算力),都是可以計算出來的了。OpenAI和谷歌比財力殊為不智。
- 其實 ChatGPT 能力上并沒有比 GPT3.5 高很多。真正厲害的是 RLHF 和 ChatBot 的這種形式比較直觀的展現(xiàn)了 LLM 的威力。更多的是應用層的創(chuàng)新。但是我們期待中的殺手級應用還沒有出現(xiàn)。大家都在探索,誰都有機會。手握模型的大公司肯定機會最大。小公司等著大公司卷模型,誰好,誰便宜就用誰也是個策略。模型的護城河是很薄弱的。
標簽: