如何用AI高速翻譯公開課
總耗時:16小時
時間分配:
OpenAI Whisper Large:掛機(jī)3小時生成字幕,不花我的時間
python編程:6小時
和chatgpt磨合:4小時
和chatgpt復(fù)制黏貼:3小時
三倍數(shù)校對字幕,局部修改:3小時
上傳到bilibili,填寫信息:0.5小時
25分鐘每一課,8堂課。時長200分鐘
如果去掉一次性的耗時,則耗時/視頻時長 比例 = 6.5/3.33 = 2
如果用Chat GPT 的api,那么復(fù)制黏貼的時間也可以掛機(jī),理論可優(yōu)化到只需要3.5/3.33 = 1.1
人的校對和局部修改是最后的瓶頸。
所以我最近翻譯了勒貝格積分的整個講座課程。 我想分享一下我是如何做到的。
https://space.bilibili.com/628609616/channel/collectiondetail?sid=1174957
通過 youtube-dl 下載整個播放列表
通過 OpenAI Whisper Large 推送每個視頻,以生成字幕。 它們幾乎是完美的,只是一些字幕由于某種神秘原因移動了大約 0.4 秒。 我不得不手動修復(fù)它。
使用我的自定義 python 代碼讀出字幕文件,將短行合并為一個,將“step function”等特殊詞的翻譯替換為“階梯函數(shù)”等等。 然后將處理過的字幕注入prompt,寫入如下所示的文件中。
我將prompt復(fù)制粘貼到 ChatGPT,每次翻譯完成后重置對話(通過刷新頁面)。 這極大地加速了 ChatGPT,因為我不需要它來記住之前的對話。 如果我繼續(xù)使用同一個對話,ChatGPT 會因為它試圖記住我們之前談過的內(nèi)容而嚴(yán)重減慢。
我使用 python 刪除了 ChatGPT 響應(yīng)中的行號,然后使用另一個 python 函數(shù)將生成的中文翻譯合并到一個 srt 文件中,逐行包含英文和中文。
我在 Subtitles Edit 中打開 srt 文件以手動檢查錯誤并修復(fù)它們。
我將 srt 文件拆分為中文版和英文版。
項目的Python源代碼:
https://pastebin.com/998vtxx8
prompt舉例:
--------------------------------------------------------------------------------
從現(xiàn)在開始,您將把我說的話翻譯成簡體中文,目標(biāo)受眾為數(shù)學(xué)本科生。您必須保留所有換行符。您必須不添加新的換行符。您必須只使用簡體中文。你必須一行字對應(yīng)一行字。你必須不可以復(fù)制黏貼英文原句。您絕不要使用LaTeX,只能使用簡體漢字、數(shù)字、拉丁字母、希臘字母。
0 : These two conditions in the case of 階梯函數(shù) were the fact that an increasing sequence of 階梯函數(shù) with bounded integrals only diverges on a 零測集.
1 : And the second condition was the 丹尼爾 condition that a decreasing sequence of 階梯函數(shù), decreasing to 0, has an integral which decreases to 0.
2 : Now, when you go on to study the 丹尼爾 integral in the last units, you'll see that all the theorems that held for the 勒貝格 integral also hold good for the 丹尼爾 integral, too.
3 : And that ought to help you in your revision of the 勒貝格 integral.
--------------------------------------------------------------------------------
解釋為什么propmt是這樣的
如果不加句首數(shù)字,ChatGPT就肯定會把某些兩句縮成一句,這樣的話中英字幕對照就沒辦法同步,就不能自動合并中英字幕。
罵ChatGPT完全沒用.只能引導(dǎo)。?加句首數(shù)字后ChatGPT就可以一行對應(yīng)一行。盡管偶爾還是會縮句。據(jù)我觀察,如果英文語法上的一個完成句被拆成了兩行,ChatGPT一定會把兩行縮成一行。加了句首數(shù)字也沒用。無論我怎么解釋都沒用。只能我自行修改。
某些專有名詞和一般名詞過于相似,比如dominated老是被翻譯為【支配】,盡管在這里它只出現(xiàn)在【控制收斂定理】中。ChatPGT有時不知道該不該翻譯人名,結(jié)果有時用Riemann有時用黎曼。所以我就在第一步用python來word replace。
null set直接被翻譯錯了,成了【空集】,所以我word replace成【零測集】。
ChatGPT翻譯很流暢,比任何免費(包括Google)翻譯器都流暢。我試過用Google翻譯器,快很多,但需要很多修改。ChatGPT的翻譯基本一遍過。25分鐘的演講課,翻譯成中文約5000字,我只需要修改大約20字。也就是說99.5%可以直接使用。
So I recently translated a whole lecture course on Lebesgue Integral. I would like to share a bit about how I did it.
https://space.bilibili.com/628609616/channel/collectiondetail?sid=1174957
Download the whole playlist by youtube-dl
Push everey video through OpenAI Whisper Large, to generate subtitles. They are almost perfect except that a few subtitles are shifted by about 0.4 seconds for some mysterious reason. I had to fix it manually.
Use my custom python code to read out the subtitle file, merge short lines into one, substitute in the translations of special words like "step function" for "step function". The processed subtitles are then injected with prompts, written out into a file that looks like this:
I copy-pasted the prompts to ChatGPT, resetting the conversation (by refreshing the page) every time one translation is done. This greatly accelerates ChatGPT, because I don't need it to remember previous dialogue. If I keep using the same conversation, the ChatGPT would slow down severely due to its attempt to keep in mind what we talked about previously.
I used python to remove the line numbers from ChatGPT's responses, then used another python function to combine the resulting Chinese translation into one srt file, containing both English and Chinese, line-by-line.
I open the srt file in Subtitles Edit to check for errors manually, and fix them.
I split the srt file into a Chinese-only version and an English-only version.
The Python source code for the project:
https://pastebin.com/998vtxx8