用三種方式,完成不一樣的去重……
重復(fù)和重復(fù),是不一樣的,不信,你往下看!
啥是重復(fù)
本文接下來(lái)要講的重復(fù),針對(duì)的都是同一要素集/圖層或者是表內(nèi)部的要素重復(fù)。重復(fù)就是說(shuō):要比較的那些要素,長(zhǎng)得一樣!
數(shù)據(jù)
這個(gè)問(wèn)題,是技術(shù)交流群的朋友提出來(lái)的,樣例數(shù)據(jù)也由他提供。原始數(shù)據(jù)及去重后的數(shù)據(jù)如下圖所示:

規(guī)則
將數(shù)據(jù)中連續(xù)重復(fù)的數(shù)據(jù)去除掉,保留重復(fù)項(xiàng)的第一個(gè)要素,處理成紅色的那樣。比如索引1和2都是B,就需要去掉索引為2的要素。
開(kāi)始去重
常規(guī)的去重,一般都是要求全局唯一,具體的做法我們可以用FME的Matcher轉(zhuǎn)換器或者DuplicateFilter轉(zhuǎn)換器來(lái)進(jìn)行,但這種方式去重后,是下圖這樣的效果,無(wú)法滿(mǎn)足要求。



所以,就有了下面幾種去重方式(做法應(yīng)該還有,這里只寫(xiě)三個(gè)):
方式一:臨近要素
這種方式稍微麻煩了一點(diǎn),但也不是不能用。
具體實(shí)現(xiàn)方式如下:獲取到要素的前面一個(gè)要素的屬性信息,對(duì)屬性的內(nèi)容進(jìn)行比較。如果一樣,就打上一個(gè)N標(biāo)簽,意思是這條要素就不要了;如果不一樣,就打上一個(gè)Y標(biāo)簽,意思是這條數(shù)據(jù)留著,還有用。具體設(shè)置及結(jié)果如下圖所示:



方式二:轉(zhuǎn)換器DuplicateFilter
還是這個(gè)轉(zhuǎn)換器,需要做的就是調(diào)整一下參數(shù),將默認(rèn)的輸入?yún)?shù)是否排序選項(xiàng)設(shè)置成如下圖所示:


方式三:轉(zhuǎn)換器Sampler
仔細(xì)看下這個(gè)問(wèn)題,其實(shí)就是個(gè)取樣,按照去重字段分組(排好順序的那種),取每組的第一個(gè)要素就可以了。具體的轉(zhuǎn)換器設(shè)置如下:


others
技術(shù)不是萬(wàn)能的,不能解決所有的問(wèn)題;堆人力則沒(méi)有解決不了的問(wèn)題,如果有,就是堆的不夠多!
最近見(jiàn)到過(guò)不少的需求,很多的需求都可以用相應(yīng)的技術(shù)去優(yōu)化流程。比如有位做人力的朋友,需要統(tǒng)計(jì)各員工每天的拜訪客戶(hù)次數(shù),人家就是靠著一個(gè)一個(gè)的數(shù)(從其他平臺(tái)導(dǎo)出的excel,包含每天的記錄)。
一個(gè)透視表就能做出來(lái)的,嘿,人就是不用!就是靠人干,一條一條的處理,我真佩服人的毅力,真棒!
也許是有什么原因吧,我不知道。大力出奇跡,這種工作態(tài)度,哪個(gè)領(lǐng)導(dǎo)會(huì)不喜歡呢?
類(lèi)似的需求,類(lèi)似的問(wèn)題,到處都有。技術(shù)哪里都需要,其實(shí)也不是哪里都需要,就看領(lǐng)導(dǎo)喜歡什么吧!
往期推薦
路在何方?
智慧城市,智慧在哪里?
技術(shù)大牛之所以成為大牛,為什么?
怎么在線上取起始點(diǎn)/中點(diǎn)/任意點(diǎn)?
需要加群點(diǎn)這里:聯(lián)系方式
本文使用 文章同步助手 同步