大數(shù)據(jù)挖掘企業(yè)服務(wù)平臺快速構(gòu)建數(shù)據(jù)挖掘工程
“TipDM大數(shù)據(jù)挖掘建模平臺”(以下簡稱平臺)是由廣東泰迪智能科技股份有限公司自主研發(fā),基于Python引擎的數(shù)據(jù)挖掘建模平臺。使用平臺配置的開箱即用的算法組件,用戶可在沒有編程基礎(chǔ)的情況下,通過拖拽的方式進行操作,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模等環(huán)節(jié)通過流程化的方式進行連接,幫助用戶快速建立數(shù)據(jù)挖掘工程,提升數(shù)據(jù)處理的效能。目前已經(jīng)廣泛運用在南方電網(wǎng)、中國電力科學(xué)研究院、珠江數(shù)碼、北京智慧信訪、中國石油勘探研究院、輕工業(yè)環(huán)境保護研究所、交通運輸部公路科學(xué)研究所等眾多企事業(yè)單位。平臺的界面如圖1所示。

平臺簡介
TipDM大數(shù)據(jù)挖掘建模平臺主要有以下幾個特點。
(1)平臺算法基于Python引擎,用于數(shù)據(jù)挖掘建模。Python是目前最為流行的用于數(shù)據(jù)挖掘建模的語言之一,高度契合使用需求。
(2)用戶可在沒有Python編程基礎(chǔ)的情況下,使用直觀的可視化圖形界面,通過拖拽的方式構(gòu)建數(shù)據(jù)挖掘流程,無需編程。
(3)提供公開可用的數(shù)據(jù)挖掘示例工程,一鍵創(chuàng)建,快速運行。支持挖掘流程每個節(jié)點的結(jié)果在線預(yù)覽。提供實時日志查看功能,出現(xiàn)問題快速定位。
(4)提供八大類數(shù)十種算法組件,包括數(shù)據(jù)預(yù)處理、統(tǒng)計分析、分類、聚類、文本分析等常用數(shù)據(jù)挖掘算法。同時提供Python腳本,粘貼代碼即可運行。
平臺主要分為數(shù)據(jù)空間、我的項目、算法組件三個模塊。
數(shù)據(jù)空間
【數(shù)據(jù)空間】主要用于數(shù)據(jù)集的導(dǎo)入與管理,用戶可從本地將任意類型的數(shù)據(jù)導(dǎo)入到平臺中使用,如圖2所示。同時,還可以選擇是否將數(shù)據(jù)作為公共數(shù)據(jù)集進行上傳,分享給其他用戶使用,如圖3所示。


我的項目
【我的項目】主要用于數(shù)據(jù)挖掘流程化的創(chuàng)建與管理。通過【我的項目】模塊,能夠創(chuàng)建空白的工程,進行數(shù)據(jù)挖掘流程的配置,如圖4所示。對于完成度優(yōu)秀的工程,可以將其保存為模板,如圖5所示,其他用戶可通過模板創(chuàng)建已配置好算法的數(shù)據(jù)挖掘工程,一鍵運行。


算法組件
在平臺中,每一個數(shù)據(jù)挖掘算法都可稱之為一個組件?!舅惴ńM件】主要分為系統(tǒng)算法組件和個人算法組件兩部分。系統(tǒng)算法組件是由平臺提供的默認算法,用戶無需編輯,可直接在工程中使用。個人算法組件是在系統(tǒng)算法組件無法滿足使用的情況下,用戶可使用Python編寫個人算法組件,供本用戶使用。
系統(tǒng)算法組件包括輸入、統(tǒng)計分析、預(yù)處理、腳本組件、聚類、分類、回歸、文本分析,共八大類,如圖6所示。
(1) 【輸入/輸出】提供配置數(shù)據(jù)挖掘工程的輸入組件,包括:輸入源。
(2) 【統(tǒng)計分析】提供對數(shù)據(jù)整體情況進行統(tǒng)計的常用組件,包括:相關(guān)性分析、正態(tài)性檢驗、主成分分析、全表統(tǒng)計、平穩(wěn)性檢驗、因子分析、卡方檢驗。
(3) 【預(yù)處理】提供對數(shù)據(jù)進行清洗的組件,包括:主鍵合并、表堆疊、記錄去重、新增序列、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)拆分、頻數(shù)統(tǒng)計、衍生變量、缺失值處理、數(shù)據(jù)排序、分組聚合。
(4)【腳本組件】:提供一個代碼編輯框,用戶可以在代碼編輯框中粘貼已經(jīng)寫好的程序代碼,直接運行,無需再額外配置成組件,包括:Python腳本。
(5) 【分類】提供常用的分類算法組件,包括:CART分類樹、K最近鄰、樸素貝葉斯、支持向量機、邏輯回歸、Adaboost、隨機森林。
(6) 【聚類】提供常用的聚類算法組件,包括:層次聚類、DBSCAN密度聚類、K-Means聚類、K-中心點聚類、模糊聚類。
(7) 【回歸】提供常用的回歸算法組件,包括:CART回歸樹、線性回歸、支持向量回歸、K最近鄰回歸。
(8) 【文本分析】提供常用的文本分析算法組件,包括:HanLP分詞與詞性、長短期記憶網(wǎng)絡(luò)訓(xùn)練、過濾停用詞、word2vec、結(jié)巴提取、正則匹配、基于詞向量/文檔向量、TextRank等。


想要詳細了解大數(shù)據(jù)挖掘企業(yè)服務(wù)平臺,可到泰迪智能科技企業(yè)數(shù)據(jù)挖掘平臺獲取了解更多