第一百五十四章 幻大數(shù)據(jù)壓縮研究
任何一個(gè)隨機(jī)大數(shù)據(jù),都有兩種可能,一種是可以用極少數(shù)的算式就能得出,比如1024的1024次方;另一種是可以用極少數(shù)的算式就能近似得出,也就是用一個(gè)算式,能夠得出重合率達(dá)到百分之八十的數(shù)值,只需要一些不重合區(qū)域的表達(dá)式就可以還原。
按照進(jìn)制,分為十進(jìn)制大數(shù)據(jù),十六進(jìn)制大數(shù)據(jù),二進(jìn)制大數(shù)據(jù)。
數(shù)據(jù)的進(jìn)制可以轉(zhuǎn)換,而當(dāng)數(shù)據(jù)足夠大時(shí),進(jìn)制的轉(zhuǎn)換會(huì)導(dǎo)致運(yùn)算資源占用,也就需要有對(duì)應(yīng)的進(jìn)制的數(shù)據(jù)壓縮方法。
二進(jìn)制無理數(shù)專用處理器:生成二進(jìn)制的圓周率,生成二進(jìn)制的黃金分割率,生成任意正整數(shù)的以自身為開方數(shù)的數(shù)值,階除——也就是1除以2除以3除以4除以5一直到特定中止位置的取小數(shù)部分。
隨機(jī)重合排列關(guān)系專用處理器:在二進(jìn)制中,隨機(jī)找出一個(gè)無理數(shù)(數(shù)據(jù)卡尺)和一個(gè)有理數(shù)數(shù)據(jù)(需要被轉(zhuǎn)化為最短表達(dá)式的原始數(shù)據(jù))的數(shù)據(jù)重合部分,把這些重合表達(dá)為最短表達(dá)式,當(dāng)然,一個(gè)原始數(shù)據(jù)不可能只采用一個(gè)數(shù)據(jù)卡尺。
發(fā)展下去,大數(shù)據(jù)就需要有專用的數(shù)據(jù)卡尺服務(wù)器,也就是小的數(shù)據(jù)卡尺服務(wù)器,可以常備1000多個(gè)數(shù)據(jù)卡尺,而大的數(shù)據(jù)卡尺服務(wù)器,可以常備千萬億級(jí)別的數(shù)據(jù)卡尺。
數(shù)據(jù)卡尺越多,越容易生成最短表達(dá)式。
數(shù)據(jù)卡尺的用法:
一元數(shù)據(jù)卡尺:把原始數(shù)據(jù)和數(shù)據(jù)卡尺進(jìn)行比對(duì),找出其中重合部分,把重合部分記錄為數(shù)據(jù)卡尺引用段落表達(dá)式。
二元數(shù)據(jù)卡尺:把原始數(shù)據(jù)和兩個(gè)數(shù)據(jù)卡尺進(jìn)行比對(duì),找出其中重合部分,把重合部分記錄為數(shù)據(jù)卡尺引用段落表達(dá)式,當(dāng)不重合出現(xiàn)時(shí),就對(duì)數(shù)據(jù)卡尺進(jìn)行偏移運(yùn)算,準(zhǔn)備從兩個(gè)數(shù)據(jù)卡尺的偏移不進(jìn)位加法或不進(jìn)位減法中生成能和原始數(shù)據(jù)重合的段落,從而只需要記錄偏移運(yùn)算(兩個(gè)數(shù)據(jù)卡尺的偏移數(shù)據(jù),開始引用段落起點(diǎn)和結(jié)束引用段落終點(diǎn))和所采用的是不進(jìn)位加法還是不進(jìn)位減法。
三元數(shù)據(jù)卡尺:把原始數(shù)據(jù)同長(zhǎng)度等分為足夠短的有限位段落,從而讓重合率提高,可以把自身作為數(shù)據(jù)卡尺,也就是先生成1GB的還原數(shù)據(jù),然后以這1GB的數(shù)據(jù)作為數(shù)據(jù)卡尺,以此類推。
快速壓縮方式:常用于緊急數(shù)據(jù)轉(zhuǎn)移。
把大數(shù)據(jù)同長(zhǎng)度等分,然后求出其平均數(shù),設(shè)立一個(gè)個(gè)的分組,比如第一個(gè)分組,小于4096而大于512的數(shù),出現(xiàn)過多少次……,然后對(duì)一個(gè)個(gè)數(shù)據(jù)分組進(jìn)行校驗(yàn)碼記錄,這種方式優(yōu)點(diǎn)是不需要?jiǎng)佑脭?shù)據(jù)卡尺,也就不需要連接數(shù)據(jù)卡尺服務(wù)器,保密性相對(duì)較好,本身可以采用單機(jī)方式運(yùn)作,可用于極限情況下的數(shù)據(jù)轉(zhuǎn)移,缺點(diǎn)是后期還原難度相對(duì)引用數(shù)據(jù)卡尺要高,后期數(shù)據(jù)還原需要占用足夠多的窮舉運(yùn)算資源。
一般情況下,都是采用快速壓縮方式,作為備份的數(shù)據(jù)糾錯(cuò)或數(shù)據(jù)驗(yàn)算區(qū)域,作為一種保險(xiǎn)方式,避免壓縮文件被部分篡改或傳輸錯(cuò)誤導(dǎo)致的數(shù)據(jù)不可用。
---作者的話---
盡可能多找一些用有限位有理數(shù)生成無限位無理數(shù),無限位無理數(shù)都可以作為數(shù)據(jù)卡尺。