大語言模型如何幫助網(wǎng)站改版

2023-09-19 12:47 作者:岱軍 0人讀過 | 我要投稿

GPT-4 Code Interpreter 的首次成功應用讓人們對 LLM 能幫助普及腳本持有希望。

譯自 How Large Language Models Assisted a Website Makeover 。

這幾周我的一個重要項目是網(wǎng)站改版，將兩個現(xiàn)有網(wǎng)站合并成一個，并添加新的營銷文獻。我利用大型語言模型(LLM)虛擬助手團隊來幫助編程和寫作任務。這次我將討論編程方面，下次再討論助手如何幫助寫作。

統(tǒng)一標題格式

其中一個遺留網(wǎng)站使用標題大小寫：大多數(shù)單詞首字母大寫，例外的詞有“a”、“an”、“the”等及專有名詞。另一個網(wǎng)站使用句子大小寫：只有首單詞首字母大寫。但實際上，兩個網(wǎng)站都沒有100%嚴格遵循這些規(guī)則。

我們選擇了句子大小寫。需要考慮 250 個標題，這是一個常見的挑戰(zhàn)。手動修改會更快，還是編寫腳本來自動轉換更快？過去我總認為腳本會節(jié)省更多時間，而且老實說，有時這種賭注輸了。構建自動化很有意思也很有趣，手動編輯是乏味的苦差事，所以這里存在一種適得其反的偏見。

如今我的工具包里有 LLM 助手，我認為它們可以提高我的勝算。我開始用一個嚴重不完備的提示，大意是：“這里有一些標題，請將它們改為句子大小寫?！?LLM 助手總是力求達到預期效果，所以它們立即開始編寫腳本，通過對映射結果的肉眼檢查就可以輕松驗證。可輕松驗證已成為一個指導原則：你必須檢查結果，如果這個過程緩慢或困難，你就會輸?shù)暨@個賭注。

經(jīng)過探索各種 Python 庫，包括 spaCy (最終放棄了命名實體識別的嘗試)，我們終于蹣跚前行，找到了 90% 的解決方案。然后，感覺到收益遞減，我用手工完成了剩下的工作。雖然這不是最快的解決方案，但我認為如果沒有輔助，結果也不會更快。而且如果我那樣做，就無法快速瀏覽一些可能在其他時間有用的庫。

有了映射，我只需要一個腳本遍歷文件并應用轉換。在編寫簡單腳本方面，LLM 表現(xiàn)出色，當然，我自己也可以編寫，但需要花費時間和注意力，這些我更希望投入到更高階的任務中。我們一直使用一次性腳本來組合解決方案，我不認為這會(或應該)改變。如果有什么改變的話，我希望 LLM 可以幫助普及編程——同樣面臨驗證結果是否容易、快速和自信的約束。

現(xiàn)在讓我們快進到完成練習后我編寫的一個更有趣的提示。

招募 GPT-4 Code Interpreter

這對 GPT-4 Code Interpreter 模型的首次試用效果很好，它可以運行所寫的代碼，并自主迭代來找到解決方案。我的經(jīng)歷與 AI 專家 Simon Willison 在這個播客中的描述一致:

[01:32:42] 事實上，當它編寫代碼時，我看到它犯了我也會犯的同樣錯誤，像出現(xiàn)偏差之類的。然后它輸出結果時發(fā)現(xiàn)自己出錯了，需要修正。所以它基本上是以我會編寫的完全相同方式編寫了代碼，只是它的速度非常快，我只需坐回來看它工作就可以了。

下面是 GPT-4 編寫的 sentence-case 函數(shù)的中間迭代版本。

我們看到 LLM 注意到了我最初也曾犯過的各種錯誤。它正在使用自行構建的測試(從我提供的測試數(shù)據(jù))來發(fā)現(xiàn)這些錯誤。過去我也試過將測試輸出反饋到循環(huán)中，但效果不佳。即使使用了大大改進的提示，Cody 和 Copilot 在編寫能通過測試的代碼方面也很困難。

GPT-4 代碼解釋器模型仍需要一些提示，但它確實成功了。誠然，只是在一個玩具問題上，但有很多類似的問題會占用時間和注意力。如果我們能快速可靠地解決它們，我們就可以把注意力集中在更大的問題上，在那里，我希望我們也能從生成/測試循環(huán)的自動化中受益。

一群隨機鸚鵡的合唱

雖然我們已經(jīng)使用了鏈接檢查工具，但我還想再次檢查，并好奇我能多快多輕松地在我的團隊幫助下組建一個簡單的檢查器。這個工具組合的很好，在使用過程中，我想知道服務器返回的 header。當我請我的團隊解釋時，他們提供了各種有趣的解釋。

在 Choral Explanations 中，Mike Caulfield 描述了 StackExchange 和 Quora 等網(wǎng)站的問答過程如何提供一系列答案，讀者可以從中綜合理解。

這些“Choral Explanations”
結合起來推動我獲得單個解釋無法達到的深刻理解，

為我提供了多個進入內容的途徑

我的隨機鸚鵡團隊可以產(chǎn)生這樣的效果。如果 Copilot 說“任何來源都可訪問資源”，我可能會想知道“源”的定義。當 Cody 補充說“來自任何域的跨源請求”時，我可以把“源”與“域”聯(lián)系起來。GPT-4 則將這些概念與 CORS 聯(lián)系起來。并不總是需要這種效果，通常你在尋找單一的最佳答案，但當你正在學習一個主題時，一群解釋可以非常有幫助。

何時讓合唱團安靜

最后一個任務是找到一組需要重新設計的小圖片。我的助手團隊幫助我組裝了一個基本腳本來掃描源樹以查找圖像，然后快速迭代幾種不同的方法來提取圖像尺寸。但用于生成包含那些圖像的頁面鏈接的轉換證明很麻煩，在這種情況下，合唱更像是喧囂。

最終，在花費過多時間嘗試各種不令人滿意的方法后，我讓團隊停止，自己完成了任務。與所有增強人類智能的技術一樣，存在真正的萎縮風險。沒有 GPS 的導航正在成為一門失傳的藝術，沒有 LLM 的編程也正在朝這個方向發(fā)展。

理想情況下，我們的助手會將我們從低級細節(jié)中釋放出來，以便我們可以專注于更高級的推理，這通常就是發(fā)生的情況。但是，就像有時關閉手機并依靠死經(jīng)驗進行導航一樣重要，知道何時讓編程助手合唱團安靜也很重要。

標簽：