大語言模型如何幫助網(wǎng)站改版
GPT-4 Code Interpreter 的首次成功應用讓人們對 LLM 能幫助普及腳本持有希望。
譯自 How Large Language Models Assisted a Website Makeover 。

這幾周我的一個重要項目是網(wǎng)站改版,將兩個現(xiàn)有網(wǎng)站合并成一個,并添加新的營銷文獻。我利用大型語言模型(LLM)虛擬助手團隊來幫助編程和寫作任務。這次我將討論編程方面,下次再討論助手如何幫助寫作。
統(tǒng)一標題格式
其中一個遺留網(wǎng)站使用標題大小寫:大多數(shù)單詞首字母大寫,例外的詞有“a”、“an”、“the”等及專有名詞。另一個網(wǎng)站使用句子大小寫:只有首單詞首字母大寫。但實際上,兩個網(wǎng)站都沒有100%嚴格遵循這些規(guī)則。
我們選擇了句子大小寫。需要考慮 250 個標題,這是一個常見的挑戰(zhàn)。手動修改會更快,還是編寫腳本來自動轉換更快?過去我總認為腳本會節(jié)省更多時間,而且老實說,有時這種賭注輸了。構建自動化很有意思也很有趣,手動編輯是乏味的苦差事,所以這里存在一種適得其反的偏見。
如今我的工具包里有 LLM 助手,我認為它們可以提高我的勝算。我開始用一個嚴重不完備的提示,大意是:“這里有一些標題,請將它們改為句子大小寫?!?LLM 助手總是力求達到預期效果,所以它們立即開始編寫腳本,通過對映射結果的肉眼檢查就可以輕松驗證。可輕松驗證已成為一個指導原則:你必須檢查結果,如果這個過程緩慢或困難,你就會輸?shù)暨@個賭注。
經(jīng)過探索各種 Python 庫,包括 spaCy (最終放棄了命名實體識別的嘗試),我們終于蹣跚前行,找到了 90% 的解決方案。然后,感覺到收益遞減,我用手工完成了剩下的工作。雖然這不是最快的解決方案,但我認為如果沒有輔助,結果也不會更快。而且如果我那樣做,就無法快速瀏覽一些可能在其他時間有用的庫。
有了映射,我只需要一個腳本遍歷文件并應用轉換。在編寫簡單腳本方面,LLM 表現(xiàn)出色,當然,我自己也可以編寫,但需要花費時間和注意力,這些我更希望投入到更高階的任務中。我們一直使用一次性腳本來組合解決方案,我不認為這會(或應該)改變。如果有什么改變的話,我希望 LLM 可以幫助普及編程——同樣面臨驗證結果是否容易、快速和自信的約束。
現(xiàn)在讓我們快進到完成練習后我編寫的一個更有趣的提示。
招募 GPT-4 Code Interpreter
這對 GPT-4 Code Interpreter 模型的首次試用效果很好,它可以運行所寫的代碼,并自主迭代來找到解決方案。我的經(jīng)歷與 AI 專家 Simon Willison 在這個播客中的描述一致:
[01:32:42] 事實上,當它編寫代碼時,我看到它犯了我也會犯的同樣錯誤,像出現(xiàn)偏差之類的。然后它輸出結果時發(fā)現(xiàn)自己出錯了,需要修正。所以它基本上是以我會編寫的完全相同方式編寫了代碼,只是它的速度非常快,我只需坐回來看它工作就可以了。
下面是 GPT-4 編寫的 sentence-case 函數(shù)的中間迭代版本。

我們看到 LLM 注意到了我最初也曾犯過的各種錯誤。它正在使用自行構建的測試(從我提供的測試數(shù)據(jù))來發(fā)現(xiàn)這些錯誤。過去我也試過將測試輸出反饋到循環(huán)中,但效果不佳。即使使用了大大改進的提示,Cody 和 Copilot 在編寫能通過測試的代碼方面也很困難。
GPT-4 代碼解釋器模型仍需要一些提示,但它確實成功了。誠然,只是在一個玩具問題上,但有很多類似的問題會占用時間和注意力。如果我們能快速可靠地解決它們,我們就可以把注意力集中在更大的問題上,在那里,我希望我們也能從生成/測試循環(huán)的自動化中受益。
一群隨機鸚鵡的合唱
雖然我們已經(jīng)使用了鏈接檢查工具,但我還想再次檢查,并好奇我能多快多輕松地在我的團隊幫助下組建一個簡單的檢查器。這個工具組合的很好,在使用過程中,我想知道服務器返回的 header。當我請我的團隊解釋時,他們提供了各種有趣的解釋。

在 Choral Explanations 中,Mike Caulfield 描述了 StackExchange 和 Quora 等網(wǎng)站的問答過程如何提供一系列答案,讀者可以從中綜合理解。
這些“Choral Explanations”
結合起來推動我獲得單個解釋無法達到的深刻理解,
為我提供了多個進入內容的途徑
我的隨機鸚鵡團隊可以產(chǎn)生這樣的效果。如果 Copilot 說“任何來源都可訪問資源”,我可能會想知道“源”的定義。當 Cody 補充說“來自任何域的跨源請求”時,我可以把“源”與“域”聯(lián)系起來。GPT-4 則將這些概念與 CORS 聯(lián)系起來。并不總是需要這種效果,通常你在尋找單一的最佳答案,但當你正在學習一個主題時,一群解釋可以非常有幫助。
何時讓合唱團安靜
最后一個任務是找到一組需要重新設計的小圖片。我的助手團隊幫助我組裝了一個基本腳本來掃描源樹以查找圖像,然后快速迭代幾種不同的方法來提取圖像尺寸。但用于生成包含那些圖像的頁面鏈接的轉換證明很麻煩,在這種情況下,合唱更像是喧囂。
最終,在花費過多時間嘗試各種不令人滿意的方法后,我讓團隊停止,自己完成了任務。與所有增強人類智能的技術一樣,存在真正的萎縮風險。沒有 GPS 的導航正在成為一門失傳的藝術,沒有 LLM 的編程也正在朝這個方向發(fā)展。
理想情況下,我們的助手會將我們從低級細節(jié)中釋放出來,以便我們可以專注于更高級的推理,這通常就是發(fā)生的情況。但是,就像有時關閉手機并依靠死經(jīng)驗進行導航一樣重要,知道何時讓編程助手合唱團安靜也很重要。