真心求助,計算機小白,希望這個網(wǎng)站有愿意參與開源中文編程計劃的志愿者。
問題是b站的專欄,如果我沒記錯,修改有次數(shù)限制。所以看情況吧。我也會在回復(fù)里討論。
[吹水] 真心求助,計算機小白,希望這個網(wǎng)站有愿意參與開源中文編程計劃的志愿者。
https://fishc.com.cn/thread-232332-1-1.html
(出處: 魚C論壇)
https://tieba.baidu.com/p/8543682818?pid=148302576213&cid=0#148302576213
百度:漢字吧:這個吧有沒有愿意自愿參加開源中文編程計劃的?
附:<希望長久存在,國家,中科院都沒解決,所謂磚家看不起的事情,我們來一起解決,打它們的臉,為中華民族為全中國人民做出杰出貢獻吧>請不要水易語言。。第一這是開源,第二這不是文言文。
我給出的大致計劃步驟是,第一階段是建立基本的中文輸入法,第二階段建立編譯器并且在保留中文的基礎(chǔ)上把底層除了最基本的關(guān)鍵詞外全部重寫重定義一遍,并編寫標(biāo)準(zhǔn)1.0,第三階段,各種嘗試技術(shù)突破關(guān)于硬件。看能否融合加入一些變化使之獨立于原有的底層技術(shù)。前幾步主要是解決有無能用和創(chuàng)新。第四步,目標(biāo)c++這樣的面向用戶的。。第五步,增加功能。創(chuàng)建和升級中文系統(tǒng)。第六步繼續(xù)改進。。
這本是一個大項目,望有耐心的看完。本人也非專業(yè)。但決不是水帖。我認為中文編程??茖W(xué)發(fā)展。沒有捷徑可言。前人栽樹后人才能乘涼。必須對漢語理解透,用新華漢語詞典一個一個的過一遍才行。
以下并非一天一時討論,也不是最終意見。需要討論交流以及最終決定。意味著:可以修改。請不要灌水和發(fā)表無意義的支持或否定回復(fù),目前請先考慮第一階段。輸入法設(shè)計??梢杂绣X出錢,有力出力,什么也沒有也無妨,出個建議出個思考,出個知識,出個幫助人脈,聯(lián)系,那怕是一分鐘的思考也是幫助,說不定各位的一個想法,一個契機就是關(guān)鍵。。畢竟開源意味著成果可以繼承。。我這個前浪死在沙灘上也未嘗不可。只要不重復(fù)研究,能腳踏實地的進步就行。三年五年終有成功的一天。這個最先發(fā)表于貼吧,但是沒人搭理。所以下文并非同一時間,今天一鼓作氣,看到up的b站視頻,來此網(wǎng)站賭一把有沒有志向的。
最低目標(biāo)也是弄一個新的輸入法,可以在無需記五筆的情況下,在無需選1234567的情況下,通過聲調(diào)和偏旁來精確到準(zhǔn)確的字。核心邏輯(現(xiàn)寫的):通過拼音和聲調(diào),以及隨時可切換的筆畫和部首以及部首的拼音、聲調(diào)、筆畫來精準(zhǔn)的定位字和詞語。
首先第一步,簡體輸入法。。輸入法里的第一步,加聲調(diào)里的第一步,單字和詞語數(shù)據(jù)收集。。包括難檢字。
比如(最初想法biru32,格式geshi24,0表示輕聲,后分析認為不嚴(yán)謹(jǐn),如果用作非編程用的比如windows輸入法,倒是可以根據(jù)情況省略因為好打。方便用戶,建議想辦法兼容。)。先從新華漢語詞典收錄。。然后查重,看一下情況有沒有和有多少特殊情況。biru有沒有第二種拼音分段且滿足音調(diào)相同(后論證比如bange,ban,ge/bang,e,第一種是窮舉法限定詞語包括音調(diào),就是看中文里一共有多少沖突的全找出來,2組的,3組的。另一種是bi3ru2末尾直接加,)。包括多音字。第三階段整合完成。
同時,我在這幾天的思考中,認為如果使用兩個鍵盤,一個中文,一個英文,配上相應(yīng)的輔助軟件。打字效果可能會更好。我覺得兩個鍵盤絕大多數(shù)人應(yīng)該買的起。如果頻繁的切換中英文,應(yīng)該比shift好使。
輸入法計劃第二階段,單字精準(zhǔn)加偏旁部首定位區(qū)分,以及部首精簡化和多源定位。bi畢畢??弊bi4vbi_hps bi4vshsgsddpnphpn_hps bi4hebi
bieren22
bie ren,比如說u還是v,可以投票決定。。v的好處是拼音里沒有v。u的好處是目前輸入法通用u。以及u離手近。就看技術(shù)上有沒有沖突的情況。如果沒有沖突自然是u好。下面的比起自己的,也可以借鑒現(xiàn)有的一些輸入法模式,然后定義吧。
比如,u開頭目mmu(筆畫多的部首),木mu(筆畫少的部首),再比如v開頭hspndtg,橫豎撇捺點提勾拆分所有筆畫。有一些比如登字頭deng還是bo1,還是共同使用,有待商榷(來源百度搜索)。再比如土和士hsh1,hsh2,誰在前誰在后可以商榷定義,也可以根據(jù)情況直接加t或sh,比如hsh1tu,hsh1shi,對于非筆畫的偏旁比如偏ps_bian3加下劃線。當(dāng)然如果引入中文編程計劃第二部編譯器,那么編譯器可以自動補全一些,比如hsh1t補全為hsh1tu,因為有且只有一個。日,曰(a,b)(b,a)慢
(我先睡覺,晚上一點半了,下面的還沒有修改)
輸入法第三階段,單字結(jié)合補全。比如,比bi3vbi,筆bi3vzhumao,bi3vzhu_phhshg,vzhu_mao,這個具體的還是得老老實實一步一步的把詞典和字典匯總完才能得出結(jié)論。是用v還是u還是再加一個還是什么其他情況。
第四階段,詞語組合簡略。比如br32,如果rug23,這個要找唯一性。
預(yù)計,人越多,完成的越快,據(jù)現(xiàn)代漢語詞典說有6萬余條。給它算7萬。如果有100人,每天分別分段順序弄100個字詞。算上查驗3周一個階段。。,如果有一千志愿者,工序可以縮短為每人每天10個字詞,或者每人60個字詞,時長縮為3~5天?
統(tǒng)一txt,或者excel。?;蛘哒l有更好的建議。。要弄的話可以討論定義一下。
比如,比如 biru32
比 bi3
按理說,biru32,這個32應(yīng)該能自動識別和分配到bi3,ru2。我對計算機并不是很了解。。這樣打是為了考慮到最終的方便。實際的編碼可能不是這樣。我是說可能,這跟實現(xiàn)方式有關(guān)系。當(dāng)然這都可以改。比如在bi3里找ru2有沒有,還是找biru32。我覺得第一種可能好?只是可能。因為bi3和vsthpshg應(yīng)該是等值的,最后比如utf-8之類的?;蛘咴蹅冏约焊阋惶壮鰜怼?慈藬?shù)啦。如果咱們有一千個人,自己搞一套完全可以,如果就十來個人,那就直接拿已經(jīng)開源的。。那有人會說,為什么不直接用開源的輸入法呢?因為那些輸入法并不能精確,或者說很難。用五筆,記不住,用拼音,經(jīng)常遇到?jīng)]有音調(diào)的,或者在開源和數(shù)據(jù)使用上有可能有問題。至于新華漢語詞典。我覺得咬死參考。。不至于吧。。中國政府要連這都要管,那豈不是要收文字稅?你說字體,我能理解。書本費或者印刷盜版能理解,但是這內(nèi)容要是告我版權(quán),那真說不過去。當(dāng)然如果有人愿意參與,哪怕除了本人外只有一個人,也會告知一下,本人一個就不搞啦。。一本詞典呢,你當(dāng)我是神仙?想累死偶也搞個七八年?
字體可以尋找開源的技術(shù)支持,或者大家自己弄?只是一個比方,切勿抬杠。