日燒70萬美元的ChatGPT如何融入搜索引擎
搜索引擎的市場格局已經(jīng)有二十年沒有什么大的變化,如今,Google和微軟兩大巨鱷的交鋒再度上演。ChatGPT風(fēng)靡之時(shí),搜索成為大型語言模型(LLM)應(yīng)用之爭的最大戰(zhàn)場。
在LLM技術(shù)進(jìn)程方面,Google的相關(guān)大模型研發(fā)實(shí)際上與OpenAI的ChatGPT差不多齊頭并進(jìn)。但剛剛倉促推出的Bard顯得很被動,Google官方的解釋是,他們需要考慮新技術(shù)對社會的影響,不想推出一個(gè)漏洞百出的搜索系統(tǒng)。
不過,作為商業(yè)公司,任何行為的背后都要考慮經(jīng)濟(jì)成本。要知道,搜索中廣告市場份額的1個(gè)百分點(diǎn)的變化,都可能帶來至少數(shù)億美元營收上的幅度波動。Google要將應(yīng)用效果還不是很好的LLM作為基礎(chǔ)技術(shù),引入到全球市場占比92%的搜索引擎業(yè)務(wù)中,如果沒有外部對手發(fā)起的強(qiáng)大挑戰(zhàn),很難進(jìn)行大膽革新。
另一方面,自我革命是一件嚴(yán)重違背人性的事,更何況大廠還有所謂的“大企業(yè)病”,畏首畏尾在所難免。
這恰好是微軟Bing的可乘之機(jī),全球市場份額目前占比不到3%,歷史包袱很小,New Bing要推出的消息讓Google急不可耐。
ChatGPT的用戶已經(jīng)到1億了,可想而知,如果Google搜索這次不跟LLM,還是按照自己的節(jié)奏去逐步更迭,其搜索業(yè)務(wù)的老底存在被傾覆的巨大風(fēng)險(xiǎn),要是Google跟了LLM,要承受用戶體驗(yàn)不佳的風(fēng)險(xiǎn),還必須得在已有搜索成本上大出血——大約還要支出300億美元的成本。
當(dāng)然,Google與微軟雙方高層比任何人都清楚這一點(diǎn),只是前者更多是焦慮不安,后者則是興奮不已。
綜合考慮風(fēng)險(xiǎn)后,Google只能硬著頭皮迎戰(zhàn),于是就有了Bard。Bard的意思是“流浪詩人”,根據(jù)百度的結(jié)果,這類詩人通常行事半調(diào)子而不拘小節(jié),樣樣通而樣樣松,還別說,這個(gè)作風(fēng)倒是挺符合現(xiàn)在LLM模型目前的能力特質(zhì)。相較之下,微軟New Bing現(xiàn)在像是個(gè)牛氣哄哄的“拼命三郎”,就想干一票大的,畢竟在某種程度上,Bing已經(jīng)沒什么可失去的了,而且這次很可能還要觸底反彈。
那么,ChatGPT究竟會如何影響現(xiàn)在搜索架構(gòu)以及相關(guān)業(yè)務(wù)成本?此前,OneFlow發(fā)布了《ChatGPT背后的經(jīng)濟(jì)賬》,文章從經(jīng)濟(jì)學(xué)視角推導(dǎo)了訓(xùn)練大型語言模型的成本。本文則從LLM搜索架構(gòu)和成本分析出發(fā),探討了微軟Bing和OpenAI利用大型語言模型 (LLM) 對搜索業(yè)務(wù)的潛在顛覆性,并分析了LLM在搜索中的演進(jìn)和發(fā)展情況。
原文地址:
https://www.semianalysis.com/p/the-inference-cost-of-search-disruption
OpenAI推出的ChatGPT風(fēng)靡全球,僅在一月份就迅速積累了超1億活躍用戶 ,成為史上用戶增長最快的應(yīng)用程序。在此之前,Instagram花了30個(gè)月才跨過1億用戶門檻,TikTok用了9個(gè)月。每個(gè)人最關(guān)心的問題是大型語言模型(LLM)對搜索的破壞性有多大。微軟此前宣布了一條震驚世界的消息:OpenAI的技術(shù)將整合到Bing搜索引擎中。
New Bing會讓谷歌坐立不安,我想讓大眾知道我們正是讓谷歌按捺不住的助推器。——Satya Nadella,微軟CEO
谷歌近來的舉動讓大眾覺得他們正“焦躁不安”。雖然我們相信谷歌擁有世界上最好的模型和最先進(jìn)的AI專業(yè)知識,但長期以來,他們卻沒能將自身的領(lǐng)先優(yōu)勢變現(xiàn)。而來自微軟和OpenAI的競爭壓力正在迅速改變這一情形。
給搜索領(lǐng)域帶來顛覆和創(chuàng)新需要投入資金,而訓(xùn)練LLM的成本很高。更重要的是,不管以何種合理的規(guī)模部署模型,其推理成本都遠(yuǎn)超訓(xùn)練成本。
實(shí)際上,每周推理ChatGPT的成本都超過了其訓(xùn)練成本。目前ChatGPT每天的推理成本為700,000美元。如果直接將當(dāng)前的ChatGPT集成到谷歌的每次搜索當(dāng)中,那么谷歌的搜索成本將大幅上升,達(dá)到360億美元。谷歌服務(wù)業(yè)務(wù)部門的年凈收入將從2022年的555億美元下降至195億美元。若將“類ChatGPT”的LLM部署到搜索中,則意味著谷歌要將300億美元的利潤轉(zhuǎn)移到計(jì)算成本上。
當(dāng)然,這種情況永遠(yuǎn)不會發(fā)生,在軟件/硬件方面改進(jìn)之前,這只會是一種有趣的假設(shè)。
1 搜索業(yè)務(wù)
首先來看一下搜索市場的情況。據(jù)調(diào)查,谷歌每秒運(yùn)行的搜索查詢約為32萬次,而谷歌的搜索業(yè)務(wù)部門在2022年的收入為1624.5億美元,每次查詢的平均收入為1.61美分。谷歌必須為計(jì)算和網(wǎng)絡(luò)搜索、廣告、網(wǎng)絡(luò)爬行、模型開發(fā)、員工等支付大量開銷。在谷歌的成本結(jié)構(gòu)中,一個(gè)值得注意的項(xiàng)目是:為了成為Apple產(chǎn)品的默認(rèn)搜索引擎,他們支付了約200億美元。
谷歌服務(wù)業(yè)務(wù)部門的營運(yùn)利潤率(operating margin)為34.15%。如果我們?yōu)槊看尾樵兎峙銫OGS/運(yùn)營費(fèi)用,那么每次搜索查詢的成本為1.06美分,產(chǎn)生的收入為1.61美分。這意味著,基于LLM的單次搜索查詢費(fèi)用必須低于0.5美分,否則搜索業(yè)務(wù)對谷歌來說將毫無利潤可言。
New Bing將融合一款新的下一代OpenAI大型語言模型。該模型針對搜索業(yè)務(wù)進(jìn)行了定制,汲取了ChatGPT和GPT-3.5的重要經(jīng)驗(yàn)和成果,速度更快、更準(zhǔn)確且功能更強(qiáng)大?!④?/p>
2 ChatGPT的成本
由于有部分未知變量,所以估算ChatGPT的成本是一個(gè)棘手問題。我們建立了一個(gè)成本模型,模型顯示ChatGPT在計(jì)算硬件方面的每日運(yùn)營成本為694,444美元。為維持ChatGPT的運(yùn)行,OpenAI需要約3,617臺HGX A100服務(wù)器(28,936個(gè)GPU),預(yù)估每次查詢的成本為0.36美分。
我們的成本模型是在每次推理的基礎(chǔ)上從頭開始構(gòu)建的,但它與Sam Altman推文和他最近所做采訪所做的介紹一致。
我們假設(shè)OpenAI使用了GPT-3密集模型架構(gòu),這個(gè)架構(gòu)的參數(shù)大小為1750億、隱藏維度為1.6萬、序列長度為4000、每個(gè)響應(yīng)的平均token數(shù)為2000、每個(gè)用戶響應(yīng)15次、有1300萬日活躍用戶、浮點(diǎn)運(yùn)算(FLOPS)利用率比FasterTransformer高2倍且延遲小于2000毫秒,int8量化,純閑置時(shí)間占用50%的硬件利用率,并且每個(gè)GPU每小時(shí)成本為1美元。如有不同意見,歡迎指出。雖然我們相信我們處于正確的區(qū)間內(nèi),但很樂意使其更加精準(zhǔn)。
3 使用ChatGPT的搜索成本
如果ChatGPT被整合到谷歌現(xiàn)有的搜索業(yè)務(wù)中,那么其影響將是毀滅性的。谷歌的營收將減少360億美元。以下是LLM的360億美元推理成本。

若想將當(dāng)前的ChatGPT部署到谷歌搜索,則需要512,820.51臺A100 HGX服務(wù)器和共計(jì)4,102,568個(gè)A100 GPU。在這些服務(wù)器和網(wǎng)絡(luò)的總成本中,僅資本支出就超過1000億美元,其中大部分資金將流向英偉達(dá)。當(dāng)然,這永遠(yuǎn)不會發(fā)生(但如果我們假設(shè)沒有任何軟硬件改進(jìn)的話,可以將其當(dāng)成一次有趣的思想實(shí)驗(yàn))。使用谷歌的TPUv4和v5在訂閱者部分建模也有不同的推理成本,同時(shí)我們還有一些H100 LLM推理性能方面的改進(jìn)數(shù)據(jù)。
令人驚訝的是,微軟知道將LLM融入搜索會摧毀搜索的盈利能力,并需要大量的資本支出。盡管我們估算了營業(yè)利潤的變動,但還是來看看薩提亞·納德拉(Satya Nadella)對毛利率的看法吧。
從現(xiàn)在開始,搜索的[毛利率]將一直呈下降趨勢?!猄atya Nadella, 微軟CEO
搜索毛利率下降已成既定事實(shí),更不用說隨著搜索質(zhì)量的提高,搜索量可能會有所減少,我們難以在大型語言模型的響應(yīng)中植入廣告,以及稍后本報(bào)告會討論的其他眾多技術(shù)問題。
微軟正在不遺余力地摧毀搜索市場的盈利能力。
在搜索廣告市場中,每增加一個(gè)百分點(diǎn)的份額,我們的廣告業(yè)務(wù)就有可能獲得20億美元的收入?!④?/p>
必應(yīng)的市場份額很小,但微軟抓住的任何份額增長都將給他們帶來巨大收益。
我認(rèn)為我們雙方都會受益匪淺。我們將逐步發(fā)掘出這些大模型的潛能,但如果搜索業(yè)務(wù)被壟斷,發(fā)展停滯不前,在這種情況下如何從搜索和廣告中營利都會是一個(gè)問題,并且我們還要應(yīng)對可能出現(xiàn)的短暫下行壓力,這種情況是我所不愿看到的。大模型的發(fā)展?jié)摿薮?,難以想象我們不知道該如何利用它們來發(fā)家致富?!狾penAI ?CEO Sam Altman
與此同時(shí),在這場競爭中,谷歌正處于劣勢地位。如果谷歌的搜索市場地位被動搖,那么它的利潤將受到極大的影響。搜索市場份額丟失所帶來的影響可能會比上面分析的更加糟糕,因?yàn)楣雀璧倪\(yùn)營成本非常高。
4 谷歌的應(yīng)對措施
對此,谷歌并沒有坐以待斃。在ChatGPT發(fā)布短短幾個(gè)月之后,谷歌就緊隨其后向公眾推出了集成LLM的搜索版本。就目前我們所看到的,微軟的New Bing和新版谷歌搜索各有優(yōu)劣。
集成了ChatGPT的New Bing搜索引擎在LLM功能方面似乎更加強(qiáng)大。谷歌在搜索準(zhǔn)確性方面存在問題,甚至在Bard的演示中也出現(xiàn)了這種問題。但是在響應(yīng)時(shí)間方面,谷歌的Bard可以直接碾壓Bing GPT。這些模型響應(yīng)時(shí)間和搜索質(zhì)量方面的差異與模型大小直接相關(guān)。
Bard將世界知識的廣度與大型語言模型的力量、智慧和創(chuàng)造力相結(jié)合,并利用網(wǎng)絡(luò)提供及時(shí)、優(yōu)質(zhì)的回答。谷歌Bard由LaMDA輕量級模型版本提供支撐,這種小型模型需要的算力更少,可以輻射到更多用戶,獲得更多反饋?!雀?/p>
谷歌正通過部署輕量級模型來爭取更大的利潤空間。他們本可以部署全尺寸大小的LaMDA模型或功能更強(qiáng)、更大的PaLM模型,但是他們沒有這樣做,反而選擇了LaMDA輕量級模型。
對于谷歌來說,這是一種必然選擇。
谷歌無法將這些龐大的模型部署到搜索當(dāng)中,因?yàn)檫@會大大降低毛利率。稍后我們會詳細(xì)討論LaMDA的輕量級版本,但重要的是,我們要意識到Bard的時(shí)延優(yōu)勢是其競爭力之一。
谷歌的搜索收入來自廣告,不同的用戶在搜索時(shí)會給谷歌帶來不同的收益。相比印度男性農(nóng)民,美國郊區(qū)女性平均每個(gè)目標(biāo)廣告所帶來的收益要高得多,這也意味著不同用戶會帶來截然不同的營業(yè)利潤率。

5 LLM在搜索中的發(fā)展
將LLM直接融入搜索并不是改進(jìn)搜索的唯一方法。多年來,谷歌一直在搜索中使用語言模型來生成embeddings。這種方法可以在不增加推理成本預(yù)算的基礎(chǔ)上,改善最常見的搜索結(jié)果,因?yàn)檫@些embeddings可以一次生成,供多個(gè)搜索結(jié)果使用。
相比ChatGPT擁有的2000個(gè)Token輸出總數(shù),從Bing GPT的84個(gè)不同的實(shí)例來看,Bing GPT約為350個(gè)Token的輸出總數(shù)明顯較少。多數(shù)情況下,人們在搜索時(shí)不愿閱讀大量繁瑣的信息。此估算考慮了未向用戶展示的token。
后續(xù)優(yōu)化是實(shí)現(xiàn)前2000個(gè)關(guān)鍵詞占搜索量的12.2%,其余的則是純導(dǎo)航性搜索(purely navigational searches)。假設(shè)20%的搜索不需要LLM。最后,相比使用基于NVIDIA的HGX A100的Microsoft/OpenAI,谷歌使用內(nèi)部TPUv4 pod的基礎(chǔ)設(shè)施優(yōu)勢更明顯。

這些簡單的優(yōu)化可以讓谷歌以僅30億美元的額外成本將LLM部署到搜索當(dāng)中。如果一切從一開始就完美設(shè)置,那么谷歌單在硬件上的支出成本就約為200億美元,其中包括數(shù)據(jù)中心基礎(chǔ)設(shè)施。這是在NVIDIA H100和谷歌的TPU v5等新硬件或MoE、稀疏性、剪枝、模型蒸餾、kv緩存和提前退出機(jī)制(early exit)等各種技術(shù)成本增加之前的情況。
人們不會接受連接到互聯(lián)網(wǎng)的ChatGPT接口。因?yàn)檫\(yùn)行速度很慢、容易編造虛假信息、并且無法有效變現(xiàn)。不過上述分析仍然過于簡單化。
由于用戶體驗(yàn)發(fā)生了轉(zhuǎn)變,單位收入經(jīng)濟(jì)學(xué)(unit revenue economics)和成本結(jié)構(gòu)將在未來2到3年內(nèi)迅速改變,實(shí)現(xiàn)完全重構(gòu)。
如果要從收入和成本方面更深入地了解這一變化,那么我們首先要搞清當(dāng)前的搜索架構(gòu),因?yàn)樗俏磥碜兓幕A(chǔ)。
從較高的層面來看,搜索的目標(biāo)是盡快提供相關(guān)信息。用戶輸入關(guān)鍵詞時(shí),搜索結(jié)果最好要按照優(yōu)劣從上到下排列。搜索工作流(search pipeline)主要有四個(gè)進(jìn)程:爬蟲、索引、查詢處理器和廣告引擎。機(jī)器學(xué)習(xí)模型早已滲透進(jìn)這四個(gè)領(lǐng)域。
爬蟲
爬蟲會自動定位互聯(lián)網(wǎng)上的新內(nèi)容,這些內(nèi)容包括網(wǎng)頁、圖像和視頻,然后它會將這些內(nèi)容添加到搜索引擎的數(shù)據(jù)庫(索引)中。通過機(jī)器學(xué)習(xí),爬蟲能夠確定要索引頁面的價(jià)值并識別其中的重復(fù)內(nèi)容。它還能分析頁面之間的鏈接,評估哪些頁面可能相關(guān)且重要,這些信息會被用于優(yōu)化抓取過程,確定抓取內(nèi)容、頻率和程度。
爬蟲在內(nèi)容提取方面也起著重要作用。它的目標(biāo)是實(shí)現(xiàn)網(wǎng)頁爬取內(nèi)容的全面文本化,同時(shí)使數(shù)據(jù)總量最小化,以確保搜索的速度和準(zhǔn)確度。時(shí)延(latency)對于搜索來說至關(guān)重要,即使是幾百毫秒的變化,也會極大地影響用戶搜索量。
谷歌和Bing利用圖像和小型語言模型來生成在頁面/圖像/視頻中并不存在的元數(shù)據(jù)。大規(guī)模擴(kuò)展這些功能是將大型語言模型和多模態(tài)模型融入搜索的突破點(diǎn),目前所有簡單的搜索成本模型都沒有考慮到這一點(diǎn)。
索引
索引是一個(gè)用于存儲爬取信息的數(shù)據(jù)庫。在索引層中可以進(jìn)行大量預(yù)處理,以最小化必要搜索的數(shù)據(jù)量。這最大限度地減少了時(shí)延,提高了搜索相關(guān)性(search relevance)。
相關(guān)性排序:可以使用模型基于相關(guān)性對索引中的頁面進(jìn)行排序,以便首先返回用戶搜索查詢最相關(guān)的頁面。
聚類:可以使用模型將索引中的相似頁面進(jìn)行分組,讓用戶更容易地找到相關(guān)信息。
異常檢測:模型可以檢測索引并刪除其異常頁面或垃圾頁面,進(jìn)而提高搜索結(jié)果的質(zhì)量。
文本分類:可以使用模型基于內(nèi)容和上下文對索引中的頁面進(jìn)行分類。
主題建模:模型可以識別索引頁面涵蓋的主題,每個(gè)頁面對應(yīng)一個(gè)或多個(gè)主題。
雖然當(dāng)前索引層是由較小的模型和DLRM完成,但如果插入LLM,搜索的有效性將會得到顯著提高。而其他簡單搜索成本模型(model of search costs)都忽視了這一點(diǎn)。我們將在本報(bào)告的后面討論用例并估算成本。
查詢處理器
查詢處理器是搜索堆棧中最受關(guān)注的層,用于接收用戶的查詢并生成最相關(guān)的結(jié)果。首先需要解析用戶的查詢,再將其分解為關(guān)鍵字和短語,進(jìn)而從索引中抓取最相關(guān)的項(xiàng),然后對用戶的特定查詢進(jìn)行重新排序及過濾。此外,查詢處理器還負(fù)責(zé)將這些結(jié)果返回給用戶。
目前在該工作流中部署了多個(gè)模型,從簡單的拼寫檢查到自動向用戶查詢添加相關(guān)術(shù)語的查詢擴(kuò)展,以提高搜索結(jié)果準(zhǔn)確性。根據(jù)用戶的搜索歷史、位置、設(shè)備、偏好及興趣對結(jié)果進(jìn)行相關(guān)性排序及個(gè)性化處理。不過當(dāng)前要想實(shí)現(xiàn)這一點(diǎn)需要在多個(gè)小型模型上運(yùn)行推理。
由于用戶提交的是實(shí)時(shí)查詢,因此必須快速高效地執(zhí)行查詢處理。相比之下,爬蟲和索引是一個(gè)持續(xù)性的過程,且無需與用戶進(jìn)行交互。
此外,谷歌和Bing使用了迥然不同的硬件以實(shí)現(xiàn)其經(jīng)典方法(classical approaches)。谷歌使用了大量標(biāo)準(zhǔn)化CPU和內(nèi)部TPU,而Bing目前使用的是大量標(biāo)準(zhǔn)化CPU和FPGA,其FPGA加速了排序方法(Ranking)和AI。
廣告引擎
雖然搜索堆棧的最后三個(gè)部分是滿足和留住用戶的關(guān)鍵,但許多人認(rèn)為廣告引擎是最重要的,因?yàn)樗凶儸F(xiàn)都源于廣告引擎的質(zhì)量。查詢處理器與廣告引擎是實(shí)時(shí)交互的,廣告引擎必須對用戶查詢、用戶檔案、位置和廣告效果(advertisement performance)之間的關(guān)系進(jìn)行建模,為每個(gè)用戶生成個(gè)性化的推薦,從而最大限度地提高點(diǎn)擊率和收入。
廣告市場是一個(gè)實(shí)時(shí)競價(jià)的大市場,廣告商通常在這里為關(guān)鍵詞、短語或特定用戶類型付費(fèi)。因?yàn)橹Ц兜慕痤~并非衡量服務(wù)的唯一標(biāo)準(zhǔn),所以廣告模型不再將其作為唯一準(zhǔn)則。由于該模型需要優(yōu)化轉(zhuǎn)化率以獲得收益并提高比率,因此搜索相關(guān)性是高度優(yōu)化的參數(shù)。
總體而言,過去4年,谷歌搜索結(jié)果的頂部頁面有80%的結(jié)果沒有任何廣告。此外,目前只有一小部分(不到5%)的搜索中有四個(gè)排名靠前的文本廣告?!雀?/p>
使用了LLM,消費(fèi)者閱讀到就不僅限于前幾個(gè)結(jié)果,這些結(jié)果中的廣告可以變成廣告商的銷路。相反,現(xiàn)在廣告成為了LLM的輸出。因此,隨著對話LLM的問世,廣告成了搜索堆棧中變化最大的一部分。我們將在本報(bào)告后半部分討論變現(xiàn)的方式和變化,因?yàn)檫@是廣告服務(wù)運(yùn)作方式的根本轉(zhuǎn)變。
6 根本性轉(zhuǎn)變
搜索中的LLM不單是一個(gè)融入搜索引擎界面的大模型。相反,它是一個(gè)多模型融合的大模型,每個(gè)模型的任務(wù)是為整個(gè)鏈條中的下一個(gè)模型提供最密集、最相關(guān)的信息。
這些模型必須基于活躍用戶進(jìn)行不斷重新訓(xùn)練、調(diào)整和測試。谷歌是首個(gè)在搜索堆棧的四個(gè)層中使用人工智能的企業(yè),但如今搜索正在經(jīng)歷用戶體驗(yàn)、使用模式和商業(yè)化結(jié)構(gòu)的根本性轉(zhuǎn)變,這可能會使許多軟件堆棧的現(xiàn)有部分失效。問題的關(guān)鍵在于谷歌能否勝任這項(xiàng)任務(wù)。在保護(hù)好自己“金蛋(golden egg)”的前提下,谷歌能調(diào)整其搜索堆棧嗎?
快速前行,打開局面?!R克 扎克伯格,2011
在弄清楚應(yīng)用模式(usage models)之前,谷歌在超優(yōu)化(hyper-optimize)其搜索堆棧方面是否有文化要求?假設(shè)谷歌以最低成本將過多資源投入運(yùn)營中,并且達(dá)到了搜索相關(guān)性的局部最大值。
在這種情況下,谷歌可能會迷失方向,反而限制了本該用于擴(kuò)展和測試新應(yīng)用模式的模型發(fā)展和創(chuàng)新。相反,微軟和OpenAI更具冒險(xiǎn)精神,更可能大刀闊斧地對搜索堆棧的四個(gè)元素進(jìn)行徹底改造。
谷歌過于謹(jǐn)慎和過早優(yōu)化的最明顯例子就是研發(fā)Bard。
Bard將與LaMDA的輕量級版本一起發(fā)布。這個(gè)小得多的模型需要的算力更少,所以我們能將其擴(kuò)展到更多的用戶,從而獲得更多的反饋。——谷歌
谷歌正在縮減(cut down)2021年初開發(fā)出來的一個(gè)模型。當(dāng)然,從開發(fā)至今,該模型有所改進(jìn),但現(xiàn)在OpenAI和微軟使用的是2022年底和2023年初開發(fā)出得更大的模型和更新的架構(gòu),并得到ChatGPT的持續(xù)反饋。所以谷歌所見所聞該模型情有可原,但這也可能會讓谷歌在用戶體驗(yàn)和迭代速度方面受到重創(chuàng)。
更令人擔(dān)憂的是,在過去的幾個(gè)月里,一些有遠(yuǎn)見卓識的人才(例如BERT的教父,PaLM推理的首席工程師和Jax的首席工程師)開始涌向初創(chuàng)公司,比如OpenAI。這可能是谷歌的文化弱化(weakening culture)的跡象。
想象一下,如果這場搜索競爭導(dǎo)致谷歌的股票持續(xù)下跌,而RSU(限制性股權(quán))的價(jià)值遠(yuǎn)低于預(yù)期,這對員工的士氣和忠誠度有何影響?
或者說,由于Bing要爭奪市場份額,并抬高了谷歌目前擁有的蘋果專屬協(xié)議,搜索業(yè)務(wù)不再是無盡的搖錢樹,那又會怎樣?谷歌是否必須在運(yùn)營包括谷歌 Cloud在內(nèi)的虧損業(yè)務(wù)時(shí)勒緊褲腰帶?
7 時(shí)延
谷歌的Bard是一個(gè)較小的模型,時(shí)延響應(yīng)時(shí)間較低。此外,谷歌內(nèi)部還有一個(gè)非常優(yōu)越的PaLM模型,但目前還無力部署。
即使時(shí)延為2,000毫秒(常規(guī)搜索的4倍,包括互聯(lián)網(wǎng)時(shí)延和20倍的處理時(shí)間),PaLM也只能處理輸入的60個(gè)token(約240個(gè)字符)和輸出20個(gè)token(80個(gè)字符)。當(dāng)在64個(gè)TPUv4上并行運(yùn)行時(shí),始終只達(dá)到約35%的利用率。

重要的是,LLM需要在搜索堆棧的非時(shí)間敏感部分(non-time-sensitive portions)使用。此外,雖然時(shí)延會更高,但batch size越大,在堆棧的這些部分實(shí)現(xiàn)的利用率就越高。
除了低時(shí)延標(biāo)準(zhǔn),序列長度增加(sequence length growth)也是將LLM融入搜索的最大挑戰(zhàn)之一。
8 Context至上
面向用戶的模型和未來AI芯片的關(guān)鍵在于增加它們的context window(上下文窗口),以便可以通過層(layer)向前傳送更多先前模型或源材料。就推理成本而言,擴(kuò)展序列長度的成本也非常高,這會擴(kuò)大成本結(jié)構(gòu)。
因此,在實(shí)時(shí)方面將圍繞context window進(jìn)行多種優(yōu)化。在爬蟲和索引階段,可以最大化context window以盡可能地將源材料密集化,達(dá)到力所能及的高質(zhì)量標(biāo)準(zhǔn)。
這樣就可以在堆棧的實(shí)時(shí)查詢部分啟用更小的模型,以最大限度地減少搜索和context window的數(shù)量,從而減少時(shí)延并縮短響應(yīng)時(shí)間。
9 整個(gè)搜索堆棧中的LLM實(shí)現(xiàn)
看看微軟如何以相同的方式應(yīng)用這些技術(shù)為某些高級企業(yè)的搜索和對話式AI助手提供服務(wù),用AI掃描過去30年中的每個(gè)文檔、電子郵件、Excel工作表、PDF和即時(shí)消息,這也是一件很有趣的事。如何在運(yùn)營和基礎(chǔ)設(shè)施層面設(shè)想新的搜索堆棧也很重要。
當(dāng)然,谷歌仍然擁有其Android、YouTube、地圖、購物、航班和照片等業(yè)務(wù)模塊,在這些領(lǐng)域微軟幾乎無法與之競爭。因此無論發(fā)生什么,這些業(yè)務(wù)模塊都足以讓谷歌在搜索領(lǐng)域維持領(lǐng)先地位。