北交大TransGPT,開源了!
來源:機器之心,編輯:3D視覺工坊
火熱了半年多,國內大模型領域迎來中場戰(zhàn)事,眼下入場的包括在垂直領域深耕多年的機構、企業(yè),開始借助行業(yè)特色優(yōu)勢打入大模型戰(zhàn)場。
近日,北京交通大學聯(lián)合中國計算機學會智慧交通分會與足智多模公司等正式發(fā)布、開源了自主研發(fā)的國內首款綜合交通大模型:TransGPT?致遠。
項目地址:
https://github.com/DUOMO/TransGPT
TransGPT?致遠的訓練基于約 34.6 萬條交通領域文本數(shù)據(jù)(用于領域內預訓練)和 5.8 萬條交通領域對話數(shù)據(jù)(用于微調),可支持實時類 APP 接入(地圖、公交等應用)。目前,TransGPT?致遠已開源,相關資源不僅對學術研究完全開放,僅需郵件申請并獲得官方商用許可后,即可以免費商用。
與通用型的多模態(tài)交通大模型產品不同,TransGPT 主要致力于在真實交通場景中發(fā)揮實際價值,包括交通情況預測、智能咨詢助手、公共交通服務、交通規(guī)劃設計、交通安全教育、協(xié)助管理、交通事故報告和分析、自動駕駛輔助系統(tǒng)等能力。
「TransGPT 綜合交通大模型」的主要功能和特色如下:
交通大模型可以用于生成交通安全教育材料,如安全駕駛的建議、交通規(guī)則的解釋等。
在車輛中的智能助手可以使用大型交通大模型來理解和生成更自然、更復雜的對話,幫助駕駛者獲取路線信息、交通更新、天氣預報等。自動回答關于公共交通服務的問題,如車次、票價、路線等。這可以提高服務效率并提升乘客體驗。
通過實時監(jiān)測和分析車輛、道路、信號燈等信息,協(xié)助智能協(xié)調交通流量,減少交通擁堵。分析社交媒體或新聞報道中的文本信息,預測交通流量、交通堵塞或事故的可能性。同時,該模型能分析交通事故歷史和特征,給出相應對策和方案,減少交通事故的發(fā)生。
交通大模型可以幫助分析公眾對于交通規(guī)劃提案的反饋和意見,提供決策者更全面的信息。
交通大模型可以幫助快速理解和分類交通事故報告,提供事故原因的初步分析。
大型交通大模型可以用于分析公眾對于交通政策的反饋,或者生成關于交通政策影響的報告。這可以幫助政策制定者更好地了解政策的實際效果。
TransGPT 交通大模型已經具備面向 BIM 模型審核員、智能運維、智能咨詢等場景的應用落地能力,將大幅度促進鐵路工程等數(shù)字化轉型和智能化提升。韓文娟團隊介紹,交通大模型采用了基于 Transformer 架構的文本大模型、多模態(tài)大模型與實時場景數(shù)據(jù)調用能力,整體上形成綜合交通大模型為基礎設施、輔以交通細分行業(yè)應用的架構。支持實時類應用,包括:駕車規(guī)劃、公共交通規(guī)劃、(逆)地理編碼查詢等落地場景應用能力,能夠促進鐵路交通等領域的數(shù)字化轉型和智能化提升。
TransGPT 背后團隊北京交通大學長期深耕交通主賽道,形成了數(shù)據(jù)壁壘,因而對于構建綜合交通大模型有很多先天優(yōu)勢,其數(shù)據(jù)內容覆蓋以下交通行業(yè):
數(shù)據(jù)來源包含以下方面:
目前已開源內容包括:
模型 TransGPT
數(shù)據(jù)集 TransGPT-DATA-sft (可商用)
數(shù)據(jù)集 TransGPT-DATA-pt (可商用)
研究者基于 chinese-alpaca-plus-7b-hf 模型框架訓練了綜合交通大模型的語言模型版本。實現(xiàn)了包括通用領域預訓練、交通領域內預訓練、有監(jiān)督微調、獎勵建模、強化學習訓練。
交通領域的訓練過程如下:
1、從原始 pdf、docx,doc 格式文件中提取文本
2、利用 LLM 根據(jù)文檔生成對話數(shù)據(jù)(微調對話數(shù)據(jù)生成方法見 LLMforDialogDataGenerate)
3、pt 訓練代碼見 supervised_finetuning.py。
4、sft 訓練代碼見 supervised_finetuning.py。
在多模態(tài)復雜場景中,圖片和文本的細粒度對應是一項挑戰(zhàn),特別是在存在多個圖像且圖像的順序、絕對位置和相對位置至關重要的復雜環(huán)境中。為了準確地指示圖像位置,區(qū)別圖像表征和文本表征,研究者使用了圖像標志(image token,即 <image n>),并且模型允許多圖像輸入(<image 1>、<image 2>))。
為了充分利用 LLM 的優(yōu)勢,研究者利用強大的 LLM(Vicuna)作為骨干。訓練過程中凍結語言模型(LLM)和視覺編碼器(visual encoder)的參數(shù),解凍 LLM 和 visual encoder 之間的連接模塊(Q-former)的參數(shù),并在交通領域數(shù)據(jù)集上對其進行微調。從而既能利用 LLM 和 visual encoder 預訓練的知識,同時使其適應交通多模態(tài)場景中的特定需求。
多模態(tài)模型訓練包括三步:
1、預訓練:預訓練的視覺編碼器和 LLM 都保持凍結,只有 Q-Former 需要學習與文本最相關的視覺表示,并由 LLM 通過類似 LAION-400M 的訓練進行解釋。
2、多模態(tài)指令微調:執(zhí)行多模態(tài)指令微調以提高 VLM 的性能,類似 InstructBLIP。
3、多模態(tài)上下文指令微調:進一步在數(shù)據(jù)集中執(zhí)行多模態(tài)上下文指令微調,以激活處理 VLM 的多圖像輸入的能力。這個階段使其能夠充分激發(fā)多模態(tài)環(huán)境中 LLM 令人印象深刻的推理潛力。
研究者在交通 benchmark 上進行了 zero-shot 評測:
1、交通安全教育:生成交通安全教育材料,如安全駕駛的建議、交通規(guī)則的解釋等。
2、交通情況預測:分析社交媒體或新聞報道中的文本信息,預測交通流量、交通堵塞或事故的可能性。
3、事故報告和分析:理解交通事故報告,提供事故原因的初步分析。
4、交通規(guī)劃:分析公眾對于交通規(guī)劃提案的反饋和意見,提供決策者更全面的信息。
以交通行業(yè)大模型為關鍵驅動,TransGPT 運用現(xiàn)代信息技術,集成感知、通信、控制、決策、協(xié)同等功能,實現(xiàn)交通設施、交通運輸工具、交通管理和交通服務的智能化,賦能行業(yè)生產效率和服務質量提升,將會推動交通行業(yè)的深刻變革。實際應用行業(yè)場景的反饋,又將進一步加速交通行業(yè)大模型的技術迭代,從而提高國產交通大模型的競爭力?!窽ransGPT 綜合交通大模型」可化身為「交通行業(yè)專家、工程師」,與交通行業(yè)政策制定者、執(zhí)行者、工程師、運維人員、普通用戶進行交流合作,提供支撐輔助能力,協(xié)助其分析解決方法并提供決策建議。
此前,北京交通大學長期深耕交通主賽道,在人工智能交通行業(yè)大模型能力上已具備一定基礎,形成了一定的行業(yè)壁壘、數(shù)據(jù)壁壘、知識壁壘,逐步夯實了面向鐵路工程、道路工程、橋梁工程、隧道工程、公路運輸、水路運輸、城市公共交通運輸、交通運輸經濟、交通運輸安全等交通行業(yè)大模型優(yōu)勢。
綜合交通大模型的誕生只是一個起點,其最終還是要落腳到特定細分的交通應用場景。未來,團隊將以 TransGPT 綜合交通大模型為基礎,打造以交通知識大模型為中心、以實時信息為渠道,自主預測、提前預警、主動服務的交通一體化體系,為交通參與者提供多樣性的服務,從而使人、車、路之間的相互作用關系以新的方式呈現(xiàn),從而實現(xiàn)實時、準確、高效、安全、節(jié)能的目標。
—END—目前工坊已經建立了3D視覺方向多個社群,包括SLAM、工業(yè)3D視覺、自動駕駛方向,細分群包括:[工業(yè)方向]三維點云、結構光、機械臂、缺陷檢測、三維測量、TOF、相機標定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機器人導航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動駕駛方向]深度估計、Transformer、毫米波|激光雷達|視覺攝像頭傳感器討論群、多傳感器標定、自動駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺產品落地等交流群。大家可以添加小助理微信:?dddvisiona,備注:加群+方向+學校|公司, 小助理會拉你入群。