古籍數(shù)字化的主角不應該是AI
在古籍數(shù)字化領域,因為近些年AI技術得到了突破性的發(fā)展。使得古籍OCR的生產(chǎn)效率,有了巨大的提升。
然而,關于古籍的核心問題,卻不是數(shù)字化能夠解決的。
OCR的技術,在不久的將來,就毫無神奇之處。就像在不久前,什么人工智能客服還是一個很新鮮的玩意兒,幾年時間,就已經(jīng)遍地開花了。
AI技術的發(fā)展,日新月異,人類永遠追不上AI的發(fā)展速度。
古籍的問題,核心在于,誰來看?誰來解釋,誰來演繹?
OCR技術,只能解決存放問題,卻不能解決看不看的問題。因為,基本上沒什么人看。
另外,ChatGPT的出現(xiàn),已經(jīng)展現(xiàn)出了,機器人的閱讀能力。所以,連看書都可以由機器人看了。
這樣的思路發(fā)展下去,將成為由AI主導,而不是以人為本了。
圍棋的產(chǎn)生,最初的本意,只是一種啟蒙工具,就像是教具罷了。而后來人類把圍棋異化成了一種競技工具。我想AI的出現(xiàn),正是來收拾這種異化的。你把圍棋搞成了競技,那么AI比你還厲害。這樣有什么意義?
同樣的問題,會出現(xiàn)在各個AI領域。古籍數(shù)字化只是冰山一角。
數(shù)字化工作,不能片面追求效率。比如,在多少時間完成了多少的頁數(shù),多少冊。校勘了多少。
然而,卻拿不出精品。AI搞出來的東西,是沒有質量的。他可以成到良好或優(yōu)秀的程度,但離開了人的參與,很難達到大師和卓越的水平。
像這種粗制爛造的數(shù)字化產(chǎn)品,其實并沒有太大意義。關鍵的問題在兩個:
1、數(shù)字化之后,還是沒人看。
2、數(shù)字化的成果,是粗制爛造品。
說一句難聽的,如果連參與數(shù)字化工作的成員,自身都淪為了工具校對人的話,自身都無法從校對工作中有所提升的話。
或者,參與??钡墓ぷ魅藛T,自身如果都不看不研究這個本子的話,你還指望后人會來看這種本子?
現(xiàn)在的書就已經(jīng)夠多了,信息社會爆炸,將來的信息量更不用說了?,F(xiàn)在當代的人,都不愿意看,沒時間看。
還指望給后人看?真是扯了淡了。
所以,這樣的工作成果,其實并不會產(chǎn)生真正的效益,只是產(chǎn)生了一種考核業(yè)績。但他并不會對社會產(chǎn)生太大的效益。
一次優(yōu)秀的??惫ぷ鳎粦詳?shù)量為導向。
而應以下為考核核心目標:
1、項目組成員,本身是否熱愛了,研究了這本古籍。這是核心的。假設有以下兩種情況。第一種情況是,項目組成員本身熱愛并研究了古籍,但最終數(shù)字化工作沒有完成,或數(shù)字化的成果是粗制爛造的。
第二種情況,則是項目組以數(shù)字化成果為導向,最后拿出了一個精美的數(shù)字化版本。但項目組成員,本身就是工具人,根本不會去看這個本子。而這種工作方式,顯然產(chǎn)量更大一些。這就像那些打了農(nóng)藥的蔬菜一樣,沒什么營養(yǎng)價值。
在這兩種情況下,我對??惫ぷ鞯乃悸肪褪?,毅然選擇第一種工作方式。堅決拋棄第二種工作方式。
因為,只要有原本的掃描件,其實根本無所謂有沒有做數(shù)字化工作。而AI技術的發(fā)展,也可以把人從這些工作當中解放出來。
想象一下,一個項目組,花了一年時間,把一冊校對完了。結果AI一升級,你發(fā)現(xiàn),你一年時間投下去的產(chǎn)出,人家AI幾分鐘就給你搞定了。因為AI升級后,校對準確率就會大大提升。
那么到時,這個項目組會后悔,會覺得自己這一年的投入不值得。因為本身最初你們追求的目標,就是錯誤的目標。
然而,如果在這一年時間內,項目組聚焦于圍繞古籍的研學,討論,自我提升,而度過了這一年時間,順便把成果匯集于一個數(shù)字化成果上。但這個數(shù)字化成果可能是呈現(xiàn)出來粗制爛造的。
一年之后,項目組成員,是不會后悔的。然后AI技術一升級,一下子把這個粗制爛造品,打造成精品了。
根據(jù)我對AI技術的理解,千萬不要走入死胡同。追求一個結果,生產(chǎn)力,最后一定會后悔。
古籍要活起來,必須是活在人的心中。而不是活在一個數(shù)字化的文檔上面。
因此,古籍數(shù)字化工作,應該要圍繞,讓古籍活起來,讓古籍活在參與者的心中,為核心目標。
一切的工作展開也要圍繞這個目標。而不是一個電子文檔。
文檔只是轉化了一種形式,把繁體字,轉成了簡體字。排版換一換,加一些標點。把紙質載體,變成了數(shù)字化的載體。僅此而已。沒有什么太大作用的。并且這些勞動,將來會廉價到任何人手機上都唾手可得。并沒有太大意義。
另外,有關古籍數(shù)字化的一個意義。說是方便于檢索,以及產(chǎn)生信息的聯(lián)結。目前很多卡片式筆記系統(tǒng),就是在做這塊的工作。
檢索有一定意義,但檢索要建立在校對完成的基礎上。如果本身沒有經(jīng)過校對,這個質量會差一點。但并不是完全沒有意義。
還有一點,簡單的檢索,其實意義并沒有那么大。信息的連結,也要講一個性價比。
投入產(chǎn)出比的一個問題。為了建立一個檢索,或信息連結,如果要耗費太多人力財力投入進去,其實是得不償失的。
順便提一點,最好的檢索和聯(lián)結,是大腦。這是腦科學領域的問題。使用電腦,其實并不是最優(yōu)選擇。
因為,如果照這個思路的話,人根本沒有必要去學習。學習的工作,交給ChatGPT就可以了。
機器人的學習能力,比人類還強,還要你人類學習干嘛呢?靠ChatGPT這套系統(tǒng),你把數(shù)字化后的古本扔進去,人家機器人,學得還比你快,比你好。何必數(shù)字化的成果,要給人類去學習呢?完全沒有必要的。
然后,人有什么問題,直接問機器人就可以了。
但關鍵問題還是,如果人沒有經(jīng)過這樣一個過程,機器人就算告訴你,你也聽不明白。你還是必須要走這個流程。
這不是數(shù)字化和人工智能能夠解決的問題??窟@些能夠解決的問題,壓根就不是什么問題。
總之,古籍方面的工作,大方向,要圍繞著讓這個古本,活在人類的心中,人去閱讀書,人與書產(chǎn)生一種緊密的心靈連接。
而AI,或是古籍OCR系統(tǒng),會打斷這種連結。會干擾這種連結。
這是一條錯誤的發(fā)展道路。人最終會淪為AI的附屬,成為一個工具人。
而以人為本的發(fā)展路線,是人成為書的主人,AI作為一種輔助式工具,把人從繁雜的重復工作中解放出來。這樣,AI成為了人的附屬。
這是兩種不同的發(fā)展理念。