盤(pán)古大模型的超級(jí)“外腦”,華為云正式發(fā)布GaussDB向量數(shù)據(jù)庫(kù)
隨著AI大模型產(chǎn)品及應(yīng)用呈現(xiàn)爆發(fā)式增長(zhǎng),新的AI時(shí)代已經(jīng)到來(lái)。向量數(shù)據(jù)庫(kù)可與大語(yǔ)言模型配合使用,解決大模型落地過(guò)程中的痛點(diǎn),已成為企業(yè)數(shù)據(jù)處理和應(yīng)用大模型的必選項(xiàng)。在近日舉行的華為全聯(lián)接大會(huì)2023期間,華為云正式發(fā)布GaussDB向量數(shù)據(jù)庫(kù)。GaussDB向量數(shù)據(jù)庫(kù)基于GaussDB開(kāi)發(fā),具備一站式部署、全棧自主可控的優(yōu)勢(shì),并且在ANN-Benchmarks中排名第一,技術(shù)實(shí)力深厚。在大模型技術(shù)、產(chǎn)品和應(yīng)用層出不窮的當(dāng)下,GaussDB向量數(shù)據(jù)庫(kù)將為大模型行業(yè)深度賦能,加速盤(pán)古大模型行業(yè)落地。

大模型的超級(jí)“外腦”,
向量數(shù)據(jù)庫(kù)解決大模型的三大挑戰(zhàn)
向量數(shù)據(jù)庫(kù)專(zhuān)門(mén)用于存儲(chǔ)和查詢(xún)向量數(shù)據(jù),能夠高效地執(zhí)行向量空間中的搜索和比較操作。如果把大模型比作人的大腦,那么向量數(shù)據(jù)庫(kù)就如同大模型的“外腦”,能夠?yàn)榇竽P吞峁╅L(zhǎng)期記憶。當(dāng)前,向量數(shù)據(jù)庫(kù)被廣泛地應(yīng)用于大模型訓(xùn)練、推理和知識(shí)庫(kù)補(bǔ)充等場(chǎng)景,幫助解決數(shù)據(jù)實(shí)時(shí)性、隱私性和上下文長(zhǎng)度限制等三大挑戰(zhàn),助力大模型開(kāi)發(fā)者和用戶(hù)突破時(shí)間和空間上的限制,加速大模型的訓(xùn)練和應(yīng)用。
具體來(lái)說(shuō),在實(shí)時(shí)性方面,向量數(shù)據(jù)庫(kù)可滿(mǎn)足秒級(jí)甚至毫秒級(jí)數(shù)據(jù)更新的需求,解決大模型預(yù)訓(xùn)練或微調(diào)都需要天甚至月級(jí)以上時(shí)間,導(dǎo)致知識(shí)庫(kù)新鮮度相對(duì)滯后的問(wèn)題,減少大模型的“幻覺(jué)”。在隱私性方面,通過(guò)向量數(shù)據(jù)庫(kù)本身的權(quán)限控制,能真正實(shí)現(xiàn)隱私數(shù)據(jù)自主可控不出端。只需使用通用大模型外掛向量數(shù)據(jù)庫(kù),即可解決私有數(shù)據(jù)注入大模型帶來(lái)的安全和隱私問(wèn)題。在上下文限制方面,由于向量數(shù)據(jù)庫(kù)具備歷史數(shù)據(jù)持久化的能力,同時(shí)持久化的數(shù)據(jù)可以通過(guò)內(nèi)置的ANN算法做相似性查詢(xún),返回最相關(guān)內(nèi)容,從而突破大模型上下文限制,實(shí)現(xiàn)長(zhǎng)期記憶。正因如此,向量數(shù)據(jù)庫(kù)也被稱(chēng)為大模型的“外腦”。
三大優(yōu)勢(shì)加持,GaussDB向量數(shù)據(jù)庫(kù)
為盤(pán)古大模型再添助力
在今年7月7日的華為開(kāi)發(fā)者大會(huì)2023(Cloud)期間,華為云盤(pán)古大模型3.0正式發(fā)布。目前盤(pán)古大模型已在政務(wù)、金融、制造、醫(yī)藥研發(fā)、氣象等諸多行業(yè)發(fā)揮巨大價(jià)值。此次華為云發(fā)布的GaussDB向量數(shù)據(jù)庫(kù),具備一站式部署、全棧自主可控優(yōu)勢(shì),不僅如此,它的ANN算法在行業(yè)排名第一,將通過(guò)領(lǐng)先的技術(shù)實(shí)力助力盤(pán)古大模型解決落地應(yīng)用過(guò)程中面臨的挑戰(zhàn),讓盤(pán)古大模型在更多行業(yè)得到深度應(yīng)用。
首先,GaussDB向量數(shù)據(jù)庫(kù)支持一站式部署。由于GaussDB向量數(shù)據(jù)庫(kù)基于GaussDB構(gòu)建,已使用GaussDB的客戶(hù)可以通過(guò)升級(jí),體驗(yàn)GaussDB向量數(shù)據(jù)庫(kù)的所有功能,實(shí)現(xiàn)用戶(hù)無(wú)感知式擴(kuò)容和一站式部署,降低客戶(hù)學(xué)習(xí)和部署成本。同時(shí),GaussDB生態(tài)成熟、社區(qū)活躍,相關(guān)的工具和擴(kuò)展十分成熟可靠,讓企業(yè)使用無(wú)后顧之憂(yōu)。
其次,GaussDB向量數(shù)據(jù)庫(kù)具備自主可控優(yōu)勢(shì)。GaussDB向量數(shù)據(jù)庫(kù)基于當(dāng)前國(guó)內(nèi)唯一能夠做到軟硬協(xié)同、全棧自主可控的GaussDB數(shù)據(jù)庫(kù)開(kāi)發(fā),全棧自研。同時(shí),GaussDB能夠基于硬件優(yōu)勢(shì)在底層不斷進(jìn)行優(yōu)化,突破純軟件層面性能優(yōu)化的天花板,持續(xù)提升產(chǎn)品綜合性能。GaussDB向量數(shù)據(jù)庫(kù)也將持續(xù)迭代,不斷提升性能。
第三,GaussDB向量數(shù)據(jù)庫(kù)內(nèi)置行業(yè)領(lǐng)先的ANN算法。通過(guò)與華為中央研究院理論研究部聯(lián)合開(kāi)發(fā),該算法在當(dāng)前業(yè)界最權(quán)威的ANN-Benchmarks中榮獲第一。在ANN-Benchmarks測(cè)試框架下,GaussDB向量數(shù)據(jù)庫(kù)采用的ANN算法qsgngt在6個(gè)數(shù)據(jù)集中的5個(gè)獲得了最優(yōu)性能,在部分?jǐn)?shù)據(jù)集高精度區(qū)間相比第二名有50%-100%的QPS提升。
向量數(shù)據(jù)庫(kù)解決了大模型大規(guī)模落地面臨的知識(shí)更新速度慢、數(shù)據(jù)隱私不可控和沒(méi)有“長(zhǎng)期記憶”等問(wèn)題,突破了大模型在時(shí)間和空間上的限制,既是企業(yè)數(shù)據(jù)和大模型之間的“連接器”,也是大模型走向行業(yè)深度應(yīng)用的“助推器”。未來(lái),GaussDB向量數(shù)據(jù)庫(kù)將幫助企業(yè)更高效、更便捷地使用大模型,充分釋放數(shù)據(jù)價(jià)值,加速企業(yè)邁向AI時(shí)代的步伐。