【官方教程】VisualGLM技術(shù)講解

省流:我用ChatGPT總結(jié)了本視頻的要點(diǎn):
1. VisualGLM 6B介紹及多模態(tài)域訓(xùn)練基本思路。
2. 多模態(tài)域訓(xùn)練模型思路包括CogView與VisualGLM。
3. 圖像離散化存在的問題:損失底層信息、token利用效率低。
4. 人們只關(guān)注少量視覺語義信息,提升效率是重要的。
5. 利用語言模型進(jìn)行無縫結(jié)合可提升多輪對(duì)話的能力。
6. 使用語言模型訓(xùn)練的能力可取得很好的VQA效果。
7. 提取圖像語言特征的方法選擇會(huì)造成底層信息的損失。
8. Bleep方法中Qformal步驟會(huì)損失模型判斷為不重要的信息。
9. 基于上述因素,多模態(tài)域訓(xùn)練仍存在劣勢。
10. 多模態(tài)的預(yù)訓(xùn)理解能夠與任何預(yù)訓(xùn)語言模型相結(jié)合,實(shí)現(xiàn)好的效果。
11. VisualGLM和GPT-4都是基于多模態(tài)域訓(xùn)練思路的。
12. 使用ChatGLM 6B作為基礎(chǔ)模型。
13. 目標(biāo)是開發(fā)一個(gè)通用領(lǐng)域的中英雙語語言模型。
14. 使用VIT和Qformer構(gòu)建視覺和語言模型之間的橋梁。
15. 預(yù)訓(xùn)練過程中使用中英雙語圖文大規(guī)模數(shù)據(jù)。
16. 在微調(diào)過程中使用高質(zhì)量的圖文對(duì)進(jìn)行訓(xùn)練。
17. 幾乎凍結(jié)VIT和ChatGLM參數(shù)。
18. 學(xué)習(xí)Qforward的參數(shù)和VIT的Lora參數(shù)。
19. 固定VIT參數(shù)并訓(xùn)練Qforward和ChatGLM的Lora參數(shù)。
20. 訓(xùn)練目標(biāo)是自回歸的訓(xùn)練目標(biāo)。
21. VisualGLM 6B使用ChatGLM 6B作為基本模型。
22. VisualGLM 6B旨在建立一種通用的多語言語言模型。
23. VIT和Qformer用于在視覺和語言模型之間建立橋梁。
24. 模型共分為兩個(gè)階段:預(yù)訓(xùn)練和微調(diào)。
25. 訓(xùn)練目標(biāo)是自回歸訓(xùn)練目標(biāo)。
26. 對(duì)比損失被用于將視覺嵌入放入語義空間。
27. 對(duì)比損失只用于預(yù)訓(xùn)練階段。
28. 訓(xùn)練數(shù)據(jù)來自多個(gè)來源,包括CoreView和英文訓(xùn)練數(shù)據(jù)。
29. 模型調(diào)用使用CSRMA純formwork庫。
30. VisualGLM 6B在圖像字幕生成方面取得了一定的效果。
31. VisualGLM 6B使用ChatGLM 6B作為基本模型
32. 用VIT和Qformer在視覺和語言模型之間建立橋梁
33. 模型共有預(yù)訓(xùn)練和微調(diào)兩個(gè)階段
34. 訓(xùn)練數(shù)據(jù)來自多個(gè)來源,并使用CSRMA純formwork庫進(jìn)行模型調(diào)用
35. 使用對(duì)比損失將視覺嵌入放入語義空間,只用于預(yù)訓(xùn)練階段
36. 提供huggingface實(shí)現(xiàn)和三種環(huán)境的支持
37. 用fp16進(jìn)行原生的推理需要16G的顯存,4bit量化下只需要8.7G顯存
38. 微調(diào)任務(wù)支持不同的小任務(wù)和Q-Laura
39. 提供微調(diào)的例子以增強(qiáng)模型回答背景問題的能力
40. 用過倉庫的反聽腳本可以提高背景回答的效果。
41. Laura是一個(gè)可以對(duì)每一層的tension都加入低質(zhì)分支的系統(tǒng)。
42. 訓(xùn)練參數(shù)量太多會(huì)過擬合。
43. 增加限定某層的可調(diào)參數(shù)可以減弱過擬合。
44. QLaura是四比特量化的Laura系統(tǒng)。
45. 通過P-tuning方法,可以在連續(xù)空間內(nèi)查找最佳Prompt。
46. P-tuning需要的顯存比Laura少。
47. 使用SAT庫可以對(duì)訓(xùn)練好的模型進(jìn)行推理。
48. 本文介紹了VisualGLM 6B在圖像字幕生成方面的效果。
49. 介紹了使用SAT庫進(jìn)行推理的方法。
50. 可以在CLI Demo和Web Demo中加載訓(xùn)練好的模型。
51. 安裝DeepSpeed是訓(xùn)練中的要求,可能需要安裝回來。
52. 可以使用P-tuning方法找到最佳Prompt。
53. 可以通過修改Gradient Accumulation Steps參數(shù)減小顯存占用。
54. 建議嘗試Merge LoRa方法來更容易地發(fā)布模型。
55. Stable Deformation LoRa是LoRa的一種用法。
56. LoRa的最初用途是語言類大模型。
57. Textual Deformation效果在LoRa中會(huì)更好。
58. 以上都是關(guān)于LoRa的一些細(xì)節(jié)和歷史,本段內(nèi)容主要講述LoRa方法的應(yīng)用和建議。
59. 多模態(tài)域訓(xùn)練模型開源項(xiàng)目正在尋找更多加入的開發(fā)人員。
60. 項(xiàng)目也關(guān)注于中文OCR和表格場景理解能力的開發(fā)。
61. 項(xiàng)目里還存在的問題包括高分辨率圖像信息損失和缺乏grounding能力的幻覺現(xiàn)象。
62. 在使用BLEEP進(jìn)行語言模型對(duì)齊時(shí)需要注意其幻覺現(xiàn)象的影響。
63. 容勝同學(xué)將會(huì)介紹更多關(guān)于微調(diào)實(shí)踐的例子。
64. 今天的介紹主要涉及了VisualGLM相關(guān)內(nèi)容。
65. BLEEP思路下如何達(dá)到更好的準(zhǔn)確性是一個(gè)社區(qū)研究中的重要問題。
66. 希望能夠在學(xué)術(shù)上解決這些問題。
67. 給聽眾帶來VisualGLM相關(guān)介紹的同時(shí)表示感謝。
68. 會(huì)留給容勝同學(xué)更多實(shí)踐相關(guān)的介紹。