袋鼠云產(chǎn)品功能更新報(bào)告07期|智能、高效、安全,一個都不能少!
歡迎來到袋鼠云07期產(chǎn)品功能更新報(bào)告!在瞬息萬變的市場環(huán)境中,袋鼠云始終將客戶需求和反饋置于優(yōu)化工作的核心位置,本期也針對性地推出了一系列實(shí)用性強(qiáng)的功能優(yōu)化,以滿足客戶日益增長的業(yè)務(wù)需求。
以下為袋鼠云產(chǎn)品功能更新報(bào)告07期內(nèi)容,更多探索,請繼續(xù)閱讀。
離線開發(fā)平臺
新增功能更新
1.數(shù)據(jù)源引入支持對接審批中心
背景:數(shù)據(jù)源的使用讓用戶走審批流程,而非只是由管理員分配,方便進(jìn)行審計(jì)記錄。
新增功能說明:項(xiàng)目管理員、項(xiàng)目所有者角色可在數(shù)據(jù)源中心進(jìn)行數(shù)據(jù)源的申請,數(shù)據(jù)源權(quán)限經(jīng)超級管理員、租戶所有者、租戶管理員審批通過后,引入數(shù)據(jù)源彈窗才會出現(xiàn)審批通過的數(shù)據(jù)源,項(xiàng)目管理員和項(xiàng)目所有者可以在項(xiàng)目中引入。

2.計(jì)算引擎功能完善
? Trino 支持 explain
? Trino、Inceptor、Oracle、SQLServer、MySQL 支持語法提示
? Inceptor、Oracle、SQLServer、MySQL 支持表聯(lián)想、支持血緣解析
? Oracle、SQLServer、MySQL 支持界面創(chuàng)建存儲過程、自定義函數(shù)、系統(tǒng)函數(shù),支持任務(wù)依賴推薦,支持元數(shù)據(jù)同步和整庫同步
? 所有 SQL 的子查詢生效
3.所有 SQL 任務(wù)支持異步運(yùn)行
背景:目前我們的 RDB SQL 任務(wù)大部分采用的是同步運(yùn)行,同步運(yùn)行很可能會導(dǎo)致任務(wù)運(yùn)行超時(shí)還未返回結(jié)果,考慮和 GP 一樣全部調(diào)整為異步運(yùn)行,優(yōu)化用戶體驗(yàn)。
新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,所有 SQL 類任務(wù)支持異步運(yùn)行。
4.支持臨時(shí)運(yùn)行停止,臨時(shí)運(yùn)行停止和殺任務(wù)時(shí)支持從數(shù)據(jù)庫底層停止任務(wù)運(yùn)行
背景:運(yùn)維中心 RDB 類型殺任務(wù),只是在界面上停止運(yùn)行任務(wù),并沒有在數(shù)據(jù)庫底層讓 SQL 停止運(yùn)行,治標(biāo)不治本。
新增功能說明:Spark SQL、Hive SQL、Trino SQL、Impala SQL、Inceptor SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Greenplum SQL、MySQL、SQL Server、Hana SQL、ADB SQL、StarRocks SQL、HashData SQL,運(yùn)維中心殺任務(wù)時(shí),數(shù)據(jù)庫底層也停止運(yùn)行。
5.on yarn 任務(wù)日志實(shí)時(shí)打印
? 運(yùn)維中心任務(wù)日志實(shí)時(shí)打印
范圍:周期任務(wù)實(shí)例、手動任務(wù)實(shí)例、補(bǔ)數(shù)據(jù)任務(wù)實(shí)例
任務(wù)類型:Spark SQL、Hive SQL、數(shù)據(jù)同步任務(wù)、HadoopMR、PySpark、Spark、Flink
? 臨時(shí)運(yùn)行任務(wù)日志實(shí)時(shí)打印
范圍:周期任務(wù)、手動任務(wù)、臨時(shí)查詢
任務(wù)類型:FileCopy、數(shù)據(jù)同步任務(wù)、Spark SQL、Hive SQL
? 原數(shù)據(jù)同步中的「錯誤記錄數(shù)」「讀取字節(jié)數(shù)」等信息打印位置調(diào)整

6.分段運(yùn)行時(shí),展示每段 SQL 的執(zhí)行進(jìn)度,并展示當(dāng)前執(zhí)行的 SQL 內(nèi)容

7.新增 Python on Agent 任務(wù)
背景:支持 Python on Agent 任務(wù)的原因主要有以下三點(diǎn):
? agent 能跑的任務(wù)更多
? on yarn 查詢速率太慢了
? yarn 上跑 python 需要手動上傳很多包,影響效率
新增功能說明:支持新建 Python on Agent 任務(wù),Python on Agent 任務(wù)將獨(dú)立在控制臺配置的節(jié)點(diǎn)上運(yùn)行,不會占用 yarn 的資源。

8.表查詢中的 GP 數(shù)據(jù)源,除了顯示集群下所有表,還支持僅顯示當(dāng)前用戶有權(quán)限的表
背景:目前 RDB 數(shù)據(jù)源,在離線項(xiàng)目中的表權(quán)限是通過控制臺綁定的集群數(shù)據(jù)庫地址控制的,所有角色和用戶擁有的權(quán)限都一樣,無法做區(qū)分。
新增功能說明:
? 控制臺支持按用戶去綁定 GP 數(shù)據(jù)庫賬號
? 離線新增「僅展示有權(quán)限的表」按鈕,用戶可查看綁定的數(shù)據(jù)庫賬號下有權(quán)限的表
? 表查詢中支持查看權(quán)限范圍,例如 Select、Insert 等


9.新增 Shell 組件模版

10.開啟嚴(yán)格模式下的數(shù)據(jù)同步問題解決
背景:如果平臺單獨(dú)開啟了嚴(yán)格模式,平臺的 HiveSQL 中會要求指定分區(qū),否則運(yùn)行會報(bào)錯。但是,如果當(dāng)前集群已經(jīng)對接了數(shù)據(jù)安全,并且平臺的數(shù)據(jù)同步任務(wù)是通過 explain 語句來評估當(dāng)前查詢用戶的權(quán)限,如果實(shí)際用戶沒有分區(qū)字段的查詢條件,數(shù)據(jù)同步任務(wù)也會因?yàn)闆]有分區(qū)字段的查詢條件而報(bào)錯。
Hive SQL 報(bào)錯客戶可以理解,因?yàn)樽约洪_啟了嚴(yán)格模式,但是當(dāng)對接數(shù)據(jù)安全后的數(shù)據(jù)同步任務(wù)報(bào)錯,這個其實(shí)是不符合邏輯的。
新增功能說明:新增了一個配置項(xiàng)。如果客戶是嚴(yán)格模式且關(guān)閉了 web 層權(quán)限管控(對接數(shù)據(jù)安全/ranger),可以將這個配置項(xiàng)打開,則不會報(bào)錯。
11.數(shù)據(jù)同步支持源表為空校驗(yàn)
背景:數(shù)據(jù)同步過程中,如果源表為空,則會向目標(biāo)表寫入空數(shù)據(jù)。在某些客戶的場景下,這樣可能是合理的;但是在另一些客戶的場景下,源表可能是業(yè)務(wù)方的表,數(shù)據(jù)同步過程中并不清楚源表為空,也不希望源表的空數(shù)據(jù)去向目標(biāo)表寫入。
新增功能說明:
數(shù)據(jù)來源高級配置中新增高級參數(shù)「checkTableEmpty」。
若為“true”,數(shù)據(jù)同步任務(wù)的臨時(shí)運(yùn)行/周期實(shí)例運(yùn)行/補(bǔ)數(shù)據(jù)實(shí)例運(yùn)行/手動實(shí)例運(yùn)行前檢查源表是否為空,如果為空則實(shí)例狀態(tài)為提交失?。ㄅR時(shí)運(yùn)行為運(yùn)行失?。?。若任務(wù)配置了告警,則告警中會包含失敗原因“任務(wù)已開啟源表為空不運(yùn)行的校驗(yàn),源表${表名稱}為空”。
若為“false”,數(shù)據(jù)同步任務(wù)的臨時(shí)運(yùn)行/周期實(shí)例運(yùn)行/補(bǔ)數(shù)據(jù)實(shí)例運(yùn)行/手動實(shí)例運(yùn)行前源表為空時(shí),任務(wù)正常運(yùn)行。
12.新增發(fā)布狀態(tài)
背景:用戶無法區(qū)分發(fā)布頁面的對象是否已經(jīng)打包發(fā)布過,可能會造成部分任務(wù)重復(fù)發(fā)布,導(dǎo)致數(shù)據(jù)覆蓋。
新增功能說明:發(fā)布頁面增加了「狀態(tài)」字段,包含「已打包」和「未打包」兩種狀態(tài),重新提交的「周期任務(wù)」「手動任務(wù)」等對象,狀態(tài)會變?yōu)椤肝创虬範(fàn)顟B(tài)。

13.支持 OushuDB 計(jì)算引擎
支持SQL開發(fā)、版本回滾、表查詢、語法提示、函數(shù)管理、存儲過程管理、血緣解析、組件等功能。
14.支持 GitLab 代碼倉庫同步
背景:許多客戶存在很多存量的代碼,但是沒有一種方便快捷的方式進(jìn)行遷移。離線支持了 GitLab 代碼倉庫的拉取和推送后,客戶可以基于 GitLab 進(jìn)行代碼遷移和代碼管理。
新增功能說明:支持通過賬號密碼或是個人訪問令牌的方式訪問遠(yuǎn)端 GIt 倉庫,可以從項(xiàng)目層面或任務(wù)層面進(jìn)行代碼的拉取和推送。
功能優(yōu)化
1.數(shù)據(jù)預(yù)覽全局管控優(yōu)化
背景:之前在數(shù)據(jù)源中心做了數(shù)據(jù)預(yù)覽管控的功能,可以針對單個數(shù)據(jù)源或全局進(jìn)行數(shù)據(jù)預(yù)覽功能的管控。但之前僅管控到數(shù)據(jù)同步的數(shù)據(jù)預(yù)覽,離線產(chǎn)品需要進(jìn)行優(yōu)化,實(shí)現(xiàn)管控到表查詢和數(shù)據(jù)地圖的數(shù)據(jù)預(yù)覽。
體驗(yàn)優(yōu)化說明:meta 數(shù)據(jù)源根據(jù)數(shù)據(jù)源中心的預(yù)覽功能,實(shí)現(xiàn)了管控到離線產(chǎn)品的數(shù)據(jù)同步、表查詢、數(shù)據(jù)地圖的數(shù)據(jù)預(yù)覽等功能。

2.所有 SQL 任務(wù)的默認(rèn)運(yùn)行方式調(diào)整為整段運(yùn)行
Hive SQL、Spark SQL、Greenplum SQL、GaussDB SQL、Oracle SQL、TiDB SQL、Trino SQL、MySQL、SQL Server、Hana SQL、ADB SQL、HashData SQL、StarRocks SQL、Inceptor SQL、Impala SQL 所有 SQL 默認(rèn)運(yùn)行方式調(diào)整為整段運(yùn)行。

3.臨時(shí)運(yùn)行時(shí)記錄臟數(shù)據(jù)
臨時(shí)運(yùn)行產(chǎn)生的臟數(shù)據(jù)表也需要記錄在臟數(shù)據(jù)管理中,并且對各種情況的臟數(shù)據(jù)表分區(qū)命名進(jìn)行了優(yōu)化:
? 臟數(shù)據(jù)臨時(shí)運(yùn)行分區(qū)的命名規(guī)則:task_name=任務(wù)ID_test_instance/time=時(shí)間戳
? 臟數(shù)據(jù)周期實(shí)例分區(qū)的命名規(guī)則:task_name=任務(wù)ID_scheduled_instance/time=時(shí)間戳
? 臟數(shù)據(jù)手動實(shí)例分區(qū)的命名規(guī)則:task_name=任務(wù)ID_manual_instance/time=時(shí)間戳
臟數(shù)據(jù)補(bǔ)數(shù)據(jù)實(shí)例分區(qū)的命名規(guī)則:task_name=任務(wù)ID_temporary_instance/time=時(shí)間戳
4.表查詢和語法提示范圍優(yōu)化
離線開發(fā)中的表查詢和語法提示范圍優(yōu)化為資產(chǎn)元數(shù)據(jù)管理中所有的表(包含底層同步到資產(chǎn)的非 meta schema 的表)。
5.一鍵生成目標(biāo)表功能優(yōu)化
背景:目前我們在進(jìn)行一鍵建表功能需求設(shè)計(jì)的時(shí)候,通常使用 varchar、string 等通用類型來覆蓋所有字段類型,如果客戶有需求自行調(diào)整。但是實(shí)際上客戶的場景是復(fù)雜的,還涉及到數(shù)據(jù)精度等問題。因此我們在這個版本對常用數(shù)據(jù)源之間的字段映射關(guān)系做了梳理修改,盡量讓客戶使用一鍵建表功能時(shí)能直接使用,無需再進(jìn)行調(diào)整。
體驗(yàn)優(yōu)化說明:RDB->Hive,Hive->RDB,RDB->HANA,HANA->RDB,RDB->ADB,RDB->Doris 等數(shù)據(jù)同步中的一鍵生成目標(biāo)表功能,支持字段根據(jù)映射關(guān)系匹配。

6.切分鍵填寫優(yōu)化
背景:「源表切分鍵」的填寫入口在「數(shù)據(jù)來源」時(shí),客戶經(jīng)常會漏填,并在「通道控制」頁面選擇了大于1的并發(fā)數(shù),在執(zhí)行任務(wù)后才報(bào)錯,客戶需要再去添加切分鍵,產(chǎn)品體驗(yàn)差,效率低。
體驗(yàn)優(yōu)化說明:將「源表切分鍵」填寫入口從「數(shù)據(jù)來源」移至「通道控制」頁面;新增「開啟并發(fā)」按鈕,開啟后支持填寫源表切分鍵。

7.同步任務(wù)中選擇和其他同步任務(wù)相同的目標(biāo)表時(shí),會進(jìn)行提示
背景:在一般的 ETL 場景中,一張表只會在一個數(shù)據(jù)同步中作為目標(biāo)表存在,如果在多個同步任務(wù)中配置了同一個目標(biāo)表,很有可能會造成數(shù)據(jù)丟失、數(shù)據(jù)覆蓋等問題。
體驗(yàn)優(yōu)化說明:在數(shù)據(jù)同步選擇目標(biāo)表時(shí),若選擇的目標(biāo)表在當(dāng)前租戶下的某些數(shù)據(jù)同步任務(wù)中已經(jīng)作為目標(biāo)表存在,則會進(jìn)行提示,并告知任務(wù)名稱、任務(wù)責(zé)任人和所屬項(xiàng)目。

8.置成功、重跑、殺任務(wù)生效范圍調(diào)整
背景:目前置成功限制了特定狀態(tài)下的實(shí)例才可操作,實(shí)際置成功的主要目的是當(dāng)依賴鏈路中出現(xiàn)了暫時(shí)無法快速修復(fù)的阻塞實(shí)例時(shí),在某些情況下其下游實(shí)例如果對這個或這些實(shí)例不是強(qiáng)依賴并且不能延遲時(shí),希望平臺提供一種強(qiáng)制或者臨時(shí)處理方式從而讓下游可以繼續(xù)跑起來。
導(dǎo)致這種阻塞的情況不止現(xiàn)在的失敗、取消,而是包含除“成功”外的所有狀態(tài),因此,能夠支持置成功的實(shí)例為除“成功”狀態(tài)之外的所有狀態(tài)的實(shí)例;重跑同理,更加不用關(guān)心實(shí)例狀態(tài)。
體驗(yàn)優(yōu)化說明:
? 所有狀態(tài)的實(shí)例支持「置成功」
? 除運(yùn)行中外所有狀態(tài)的實(shí)例支持「重跑」
? 等待提交、提交中、等待運(yùn)行、正在運(yùn)行、凍結(jié)狀態(tài)的實(shí)例支持「殺任務(wù)」
9.跨租戶/項(xiàng)目/產(chǎn)品的實(shí)例支持在離線運(yùn)維中心運(yùn)維
背景:補(bǔ)數(shù)據(jù)鏈路中若存在指標(biāo)實(shí)例,指標(biāo)實(shí)例出現(xiàn)失敗的情況,目前無法實(shí)現(xiàn)重跑操作。因?yàn)殡x線內(nèi)暫不支持對其他產(chǎn)品實(shí)例的運(yùn)維,導(dǎo)致修復(fù)處理非常麻煩。
體驗(yàn)優(yōu)化說明:跨租戶/項(xiàng)目/產(chǎn)品的實(shí)例支持在離線運(yùn)維中心展示,支持「緊急去依賴」「終止」「置成功」「重跑」等操作。
10.實(shí)例置成功操作時(shí),若綁定有質(zhì)量任務(wù),質(zhì)量任務(wù)實(shí)例不執(zhí)行
背景:置成功一般發(fā)生在當(dāng)前任務(wù)暫時(shí)無法運(yùn)行成功,但是下游要正常執(zhí)行下去的情況。這種情況下當(dāng)前任務(wù)一定存在問題,如果繼續(xù)走質(zhì)量校驗(yàn)沒有意義。
體驗(yàn)優(yōu)化說明:當(dāng)對離線任務(wù)實(shí)例置成功時(shí),如果有質(zhì)量任務(wù)綁定,質(zhì)量任務(wù)實(shí)例不執(zhí)行。
11.實(shí)例依賴視圖優(yōu)化
背景:任務(wù)依賴視圖和實(shí)例依賴視圖應(yīng)該有所區(qū)分。任務(wù)依賴視圖展示任務(wù)間依賴關(guān)系;實(shí)例依賴視圖應(yīng)該展示當(dāng)前實(shí)例的依賴視圖,包含實(shí)例間依賴和跨周期依賴。這樣有助于用戶全鏈路查看實(shí)例依賴關(guān)系,理解運(yùn)行流程。
體驗(yàn)優(yōu)化說明:運(yùn)維中心實(shí)例依賴視圖,展示當(dāng)前實(shí)例的跨周期依賴實(shí)例視圖。
實(shí)時(shí)開發(fā)平臺
新增功能更新
1.FlinkSQL 開發(fā),Kafka ChunJun-json 支持自動映射
上個迭代已經(jīng)支持了 OGG-JSON 的自動映射,本次迭代支持了實(shí)時(shí)平臺自身采集工具打到 Kafka 的格式(ChunJun-json)。

2.Kafka 讀取類型新增 Raw Format
如果你的 Kafka 中具有原始日志數(shù)據(jù),并希望使用 Flink SQL 讀取和分析此類數(shù)據(jù)時(shí),需要用到 raw format。如:
47.29.201.179 - - [28/Feb/2019:13:17:10 +0000] "GET /?p=1 HTTP/2.0" 200 5316 "https://domain.com/?p=1" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36" "2.75"
如果讀取類型使用 raw format,請避免使用 upsert-kafka。因?yàn)?raw format 會將 null 值編碼成 byte[ ] 類型的 null,而在 upsert-kafka 中會將 null 視為刪除值的操作。

3.FlinkSQL 維表、結(jié)果表新增 Hyperbase 數(shù)據(jù)源


4.Flink1.12 中重構(gòu) PGWAL 插件
背景:Flink1.10 已支持過 PGWal 插件,之前插件遷移1.12的時(shí)候,漏測了 PGWal,目前在 Flink1.12 上測試發(fā)現(xiàn)存在比較大的問題。
新增功能說明:
5.Hive Catalog 支持開啟 keberos 認(rèn)證;DT Catalog 中的 Flink 映射表,源表支持開啟 keberos 認(rèn)證
表管理處的 Kerberos 認(rèn)證,分為兩種程度:
? Catalog 的認(rèn)證:此處是通過控制臺的 Flink 組件維護(hù) krb 文件。(如果 hive catalog 的 hms 也自帶 krb 認(rèn)證文件,平臺不做校驗(yàn))

? Flink 映射表的認(rèn)證:支持 Flink 映射表的源頭,如 kafka/hbase 數(shù)據(jù)源開啟 krb 認(rèn)證。(用戶需要保障 Flink 開啟的 krb 認(rèn)證和表數(shù)據(jù)源的 krb 一致,不然任務(wù)可能會運(yùn)行失敗)
6.IDE 執(zhí)行新增 Select 在線查詢能力
背景:之前數(shù)開人員排錯想要查看代碼邏輯,需要將結(jié)果打印到日志中查看,操作成本較高。
新增功能說明:在 IDE 中可以對平臺中的 DT+hive catalog 表進(jìn)行 select 查詢、執(zhí)行 DDL 語句,結(jié)果在控制臺進(jìn)行查看,對于已停止的任務(wù)可以下載導(dǎo)出 csv 文件數(shù)據(jù)。
7.新增實(shí)時(shí)數(shù)倉 demo,支持自動造數(shù)據(jù),運(yùn)行全鏈路任務(wù)
背景:給客戶演示產(chǎn)品時(shí)需要配置數(shù)據(jù)源等信息,門檻較高。
新增功能說明:在演示產(chǎn)品時(shí)點(diǎn)一點(diǎn)按鈕就能自動造數(shù)據(jù),并運(yùn)行起全鏈路任務(wù)。點(diǎn)擊試運(yùn)行后平臺將在任務(wù)運(yùn)維自動生成并提交四個任務(wù),在一小時(shí)后自動下線(點(diǎn)擊取消試運(yùn)行直接刪除下線),這些任務(wù)不支持在任務(wù)運(yùn)維界面進(jìn)行操作。
8.新增代碼模板中心,支持使用系統(tǒng)內(nèi)置模板以及創(chuàng)建自定義模板
實(shí)時(shí)平臺內(nèi)置各種 FlinkSQL 場景的開發(fā)模版,方便開發(fā)理解、上手,也可以根據(jù)業(yè)務(wù)自己創(chuàng)建自定義模版,提高開發(fā)效率,模版支持直接引用到自己的任務(wù)上做調(diào)整。
9.其他新增功能
? 引擎版本:實(shí)時(shí)采集、FlinkSQL、Flink 和 PyFlink 任務(wù)的引擎選擇支持 Flink1.16 版本
? 產(chǎn)品 logo:產(chǎn)品 logo 和名稱從控制臺的配置內(nèi)容讀取,不再固定寫死
功能優(yōu)化
1.Flink 版本查詢接口直接獲取控制臺信息,平臺不維護(hù)
實(shí)時(shí)平臺幾個 Flink 版本選擇的地方,直接查詢控制臺維護(hù)的數(shù)據(jù),平臺自身不再寫死版本號。(如果控制臺只添加了1.12,實(shí)時(shí)平臺只顯示1.12;如果控制臺添加了1.12和1.10,實(shí)時(shí)平臺則顯示兩種)
2.【實(shí)時(shí)采集】向?qū)J街袑⑶岸说呐渲庙?xiàng)抽象化
背景:如果要支持向?qū)J?,每新增一個數(shù)據(jù)源,前端都需要開發(fā)一套配置項(xiàng)。用戶/定開團(tuán)隊(duì)開發(fā)的自定義 connector,如果不進(jìn)行前端定開,只能在腳本模式中使用。
體驗(yàn)優(yōu)化說明:在向?qū)J街袑⑶岸伺渲庙?xiàng)抽象化,后端開發(fā)完自定義 connector+SQL 刷入前端配置項(xiàng)+少量/甚至沒有前端開發(fā)工作,完成一個自定義 connector 的開發(fā)應(yīng)用。
3.其他功能優(yōu)化
? Phoenix5.x:Flink1.12 版本支持 phoenix5.x sink 的選擇
? Kafka 集群:移除集群管理功能模塊,kafka 管理模塊后續(xù)的定位就是做 Topic 的增刪改查,不會提供集群管理相關(guān)的能力
? SDK 接口:新增根據(jù)任務(wù)查詢 sqltext 的接口;新增根據(jù)項(xiàng)目標(biāo)識獲取項(xiàng)目信息的接口
數(shù)據(jù)資產(chǎn)平臺
新增功能更新
1.告警通道中的自定義告警通道支持顯示多通道
背景:業(yè)務(wù)中心配置多個自定義告警通道時(shí)資產(chǎn)平臺只展示一個,但實(shí)際發(fā)送告警時(shí)將對每個自定義告警通道進(jìn)行告警信息發(fā)送,存在告警信息發(fā)送冗余,且與其他子產(chǎn)品的邏輯不一致。
新增功能說明:對于自定義告警通道像其他子產(chǎn)品一樣顯示所有告警通道,且可選擇一個或多個進(jìn)行告警信息的發(fā)送,修改范圍包括元數(shù)據(jù)訂閱、質(zhì)量規(guī)則等所有涉及告警配置的位置。
2.數(shù)據(jù)模型支持 inceptor 建表
當(dāng)前租戶的資產(chǎn)中存在自動引入的 inceptor meta 數(shù)據(jù)源時(shí),可在數(shù)據(jù)模型--規(guī)范建表模塊進(jìn)行 Inceptor 建表,支持配置表的基礎(chǔ)信息和表結(jié)構(gòu),其中配置表結(jié)構(gòu)時(shí)新增支持對分桶字段、分桶數(shù)配置。
若新建表已完成審批,在元數(shù)據(jù)查看時(shí)針對分桶字段增加分桶標(biāo)識展示。
3.【數(shù)據(jù)質(zhì)量】質(zhì)量規(guī)則對接資源組
在質(zhì)量規(guī)則中,單表校驗(yàn)和多表校驗(yàn)中跑在 yarn 上的任務(wù),以及實(shí)時(shí)校驗(yàn)任務(wù)的調(diào)度屬性彈窗中新增資源組的必選項(xiàng)。
4.其他新增功能
? OushuDB 支持元數(shù)據(jù)同步和查看:離線對接了 OushuDB 引擎生成的 meta schema,資產(chǎn)支持自動引入,并支持元數(shù)據(jù)的同步和查看。
? 數(shù)據(jù)源:新增數(shù)據(jù)源支持 Hive_MRS、Trin
? 規(guī)范建表支持 AnalyticDB PostgreSQL 表
功能優(yōu)化
1.規(guī)范建表數(shù)倉層級綁定數(shù)據(jù)庫邏輯優(yōu)化
背景:一個數(shù)倉層級只能綁一個庫,實(shí)際用戶在數(shù)倉時(shí)可能存在跨庫多主題或者多主題單庫,需要數(shù)倉層級與庫的綁定關(guān)系更為靈活。
體驗(yàn)優(yōu)化說明:數(shù)倉層級與庫不再與數(shù)據(jù)庫配置綁定關(guān)系,規(guī)范建表時(shí)可在選擇數(shù)倉層級后另外選擇數(shù)據(jù)源。
2.Inceptor 表支持表血緣
3.表生命周期到期后處理方式調(diào)整
背景:資產(chǎn)數(shù)據(jù)模型和質(zhì)量的臟數(shù)據(jù)表生命周期到期邏輯不一致,資產(chǎn)數(shù)據(jù)模型在表生命周期到期后將保存元數(shù)據(jù)信息,導(dǎo)致無用元數(shù)據(jù)信息不斷累積,元數(shù)據(jù)查詢性能受到影響;質(zhì)量的臟數(shù)據(jù)表在生命周期到期后則會刪除元數(shù)據(jù)信息,僅 Hive 表支持了生命周期。
體驗(yàn)優(yōu)化說明:
資產(chǎn)數(shù)據(jù)模型中的表生命周期到期后也刪除元數(shù)據(jù)信息,即最后統(tǒng)一為:
例如將表生命周期設(shè)置為10天,則:
? 對于非分區(qū)表,當(dāng)前日期 - 最后一次數(shù)據(jù)修改日期 > 10天后,平臺將自動刪除該表
? 對于分區(qū)表,當(dāng)前日期 - 某分區(qū)最后一次數(shù)據(jù)修改日期 > 10天后,平臺將自動刪除該分區(qū),分區(qū)全部刪除后表將被刪除
另外 Inceptor 表也支持了生命周期設(shè)置。
4.資產(chǎn)監(jiān)聽離線 IDE 的 DDL 語句,SQL 解析后元數(shù)據(jù)變更實(shí)時(shí)更新在資產(chǎn)數(shù)據(jù)地圖
目前支持的 meta 數(shù)據(jù)源范圍:Hive、AnalyticDB PostgreSQL、TiDB、Inceptor、Hashdata、StarRocks
5.數(shù)據(jù)地圖優(yōu)化
數(shù)據(jù)地圖查詢性能優(yōu)化:每張表200個字段,200w張表的元數(shù)據(jù)存儲,在數(shù)據(jù)地圖頁面查詢響應(yīng)達(dá)到5s以內(nèi)
血緣顯示內(nèi)容優(yōu)化:血緣中各節(jié)點(diǎn)內(nèi)容包含表名、schema 名稱等顯示完整
6.其他體驗(yàn)優(yōu)化
? 離線刪除項(xiàng)目后資產(chǎn)自動引入的 meta 數(shù)據(jù)源將同步刪除
? Hive 元數(shù)據(jù)技術(shù)屬性增加表類型說明,可標(biāo)識其為 Iceberg 表或者其他格式的表
? 數(shù)據(jù)脫敏優(yōu)化:脫敏方式除覆蓋外另支持轉(zhuǎn)義和算法加密,支持對指定人群脫敏/指定人群不脫敏,并支持按用戶組進(jìn)行用戶范圍選擇
? 數(shù)據(jù)地圖遷移后,所有租戶下?lián)碛须x線產(chǎn)品權(quán)限的用戶都自動增加資產(chǎn)平臺的訪客權(quán)限
? 支持離線創(chuàng)建項(xiàng)目生成的 Oracle、SQL Server meta 數(shù)據(jù)源在資產(chǎn)平臺的自動授權(quán)
? 產(chǎn)品 Logo 可在業(yè)務(wù)中心統(tǒng)一配置
? 所有下拉框增加 loading 效果,質(zhì)量校驗(yàn)規(guī)則、任務(wù)、數(shù)據(jù)源管理、元數(shù)據(jù)管理、文件治理的列表篩選框增加模糊搜索
? 數(shù)據(jù)質(zhì)量告警的告警top20增加告警時(shí)間的顯示
? 元數(shù)據(jù)同步優(yōu)化:元數(shù)據(jù)模塊中的數(shù)據(jù)同步功能,在點(diǎn)擊列表中的立即同步操作后,在按鈕旁邊加狀態(tài)標(biāo)識,避免重復(fù)操作
數(shù)據(jù)服務(wù)平臺
新增功能更新
1.支持對接自定義角色
平臺角色管理中,admin、租戶所有者和租戶管理員可在租戶層為 API 創(chuàng)建自定義角色(可自由配置角色權(quán)限點(diǎn)),此角色創(chuàng)建后會在該租戶的每個項(xiàng)目中存在。此外還可修改固定角色,如項(xiàng)目管理員、數(shù)據(jù)開發(fā)等的權(quán)限點(diǎn)。
API 內(nèi)的項(xiàng)目管理-角色管理中展示當(dāng)前項(xiàng)目中的所有固定角色和自定義角色(僅查看不可編輯)。
2.Python 函數(shù)增加支持3.9版本
背景:python 主流版本分為2.x和3.x,數(shù)據(jù)服務(wù)之前僅支持 python2.7 是因?yàn)?Jython 執(zhí)行框架僅支持到2.7版本且無法進(jìn)行包含c語言的三方庫拓展。但是 python2.7 版本較老,大部分客戶用 python3.x 較多,且有拓展三方庫的需求。
新增功能說明:后續(xù)運(yùn)維部署時(shí)默認(rèn)增加3.9版本,2.7和3.9并存,2.7仍用 Jython 框架,3.9改為 Runtime 框架。通過 Runtime 調(diào)用 Python 程序與直接執(zhí)行 Python 程序的效果是一樣的,所以其天然支持任意三方庫的依賴,同時(shí)可以在 Python 中讀取傳遞的參數(shù),也可以在 Java 中讀取到 Python 的執(zhí)行結(jié)果。
另外 api-server 服務(wù)增加了一個配置項(xiàng),這里我們提供的默認(rèn)環(huán)境是沒有三方庫依賴的,客戶可替換為客戶環(huán)境的 python 可執(zhí)行文件。
python3.exe.path = /opt/dtstack/DTGateway/Apiserver/python3/bin/python3.9
3.API 市場的調(diào)用預(yù)覽增加支持服務(wù)編排、注冊 API

功能優(yōu)化
1.審計(jì)內(nèi)容完善
支持了更加完善的關(guān)鍵操作審計(jì),以下為部分:

2.安全組中的ip地址黑白名單校驗(yàn)
背景:同一 API 所選的安全組黑白名單沒有做校驗(yàn),導(dǎo)致同一ip同時(shí)出現(xiàn)在一個 API 的安全組白名單和黑名單中。
體驗(yàn)優(yōu)化說明:API 在配置安全組時(shí)會對所選黑白名單進(jìn)行ip地址是否沖突的校驗(yàn),如果沖突則無法添加成功;歷史已經(jīng)存在沖突的情況,黑名單將生效。
3.注冊 API 返回結(jié)果是否帶平臺默認(rèn)結(jié)構(gòu)支持配置
背景:目前在數(shù)據(jù)服務(wù)注冊的 API 會外面包一層內(nèi)容,導(dǎo)致注冊以后的返回結(jié)果與原生 API 不一致。
體驗(yàn)優(yōu)化說明:后端增加一個配置項(xiàng),可配置返回結(jié)果是否加上我們自己的內(nèi)容,默認(rèn)加上。
客戶數(shù)據(jù)洞察平臺
新增功能更新
1.產(chǎn)品名稱對接業(yè)務(wù)中心
背景:當(dāng)前標(biāo)簽產(chǎn)品名稱、logo 等信息是系統(tǒng)內(nèi)置的,不可更改,但客戶根據(jù)自己實(shí)際需求會有需要變更的情況,此時(shí)需要我們配合做調(diào)整。為提高變更效率,將信息的配置統(tǒng)一對接到業(yè)務(wù)中心,客戶有需要時(shí)通過業(yè)務(wù)中心修改即可。
新增功能說明:
? 通過數(shù)棧首頁進(jìn)入「頁面配置」界面,更新「客戶數(shù)據(jù)洞察設(shè)置」內(nèi)的配置內(nèi)容,配置頁面見下圖:

配置生效后,下述頁面內(nèi)容將分別引用上方的特定設(shè)置。
(1)產(chǎn)品 loading 頁:使用「Loading 頁文案」的輸入文字、顏色

(2)標(biāo)簽產(chǎn)品項(xiàng)目列表頁、系統(tǒng)內(nèi)所有頁面左上角:使用「產(chǎn)品主頁左上角名稱」的輸入文字、顏色,「產(chǎn)品主頁左上角 icon」設(shè)置的圖片

(3)瀏覽器標(biāo)簽欄:使用「瀏覽器標(biāo)簽頁名稱」的輸入文字、「產(chǎn)品主頁左上角 icon」設(shè)置的圖片

? 通過數(shù)棧首頁進(jìn)入「頁面配置」界面,更新「首頁設(shè)置」內(nèi)的各功能模塊的名稱配置內(nèi)容后,標(biāo)簽內(nèi)部關(guān)于子產(chǎn)品名稱的引用,將引用此處設(shè)置內(nèi)容。首頁設(shè)置內(nèi)容如下:

配置生效后,標(biāo)簽產(chǎn)品內(nèi)部引用位置,如項(xiàng)目列表中的項(xiàng)目空間關(guān)聯(lián)子產(chǎn)品,如下:

2.個體畫像支持文件導(dǎo)出
背景:根據(jù)標(biāo)簽數(shù)據(jù)洞察用戶特點(diǎn),需要將數(shù)據(jù)分享給其他業(yè)務(wù)人員做報(bào)告輸出。
新增功能說明:進(jìn)入個體畫像頁面,通過模糊/精確匹配顯示搜索結(jié)果,點(diǎn)擊「畫像導(dǎo)出」可導(dǎo)出所有搜索結(jié)果。

導(dǎo)出結(jié)果將以PDF格式放至下載中心,可前往下載中心進(jìn)行文件下載。若搜索結(jié)果大于2萬個,將根據(jù)用戶輸入的單文件存儲數(shù)量將數(shù)據(jù)分別存于多個PDF文件中,并壓縮成zip文件供用戶下載。

3.群組列表支持導(dǎo)出元數(shù)據(jù)信息
背景:梳理群組數(shù)量狀態(tài),將數(shù)據(jù)分享給其他業(yè)務(wù)人員做報(bào)告輸出。
新增功能說明:進(jìn)入群組管理頁面,點(diǎn)擊「群組元信息下載」可導(dǎo)出所有篩選后結(jié)果。導(dǎo)出結(jié)果將以CSV格式放至下載中心,可前往下載中心進(jìn)行文件下載。

功能優(yōu)化
1.【SQL優(yōu)化】提升查詢效率
背景:Hive 表創(chuàng)建 SQL 中,涉及到 $partitions 參數(shù)引用,Trino 會進(jìn)行全表掃描,從而占用大量內(nèi)存空間。在現(xiàn)有功能上,需要縮短實(shí)體表的生命周期才能保證任務(wù)正常運(yùn)行,需要對 SQL 進(jìn)行優(yōu)化從而實(shí)現(xiàn)在表生命周期長的情況下,任務(wù)依然可以正常運(yùn)行。
體驗(yàn)優(yōu)化說明:
Trino SQL 中涉及 $partitions 的地方調(diào)整為子查詢,包括標(biāo)簽加工任務(wù)、標(biāo)簽圈群、群組任務(wù)。
2.支持查詢項(xiàng)目所在 schema 下的所有表、視圖
背景:客戶數(shù)據(jù)存在一個表被不同的項(xiàng)目使用的情況(不同項(xiàng)目使用不同的 schema),需要在創(chuàng)建實(shí)體的時(shí)候可以選到需要的表,當(dāng)前因查不到視圖類的數(shù)據(jù)導(dǎo)致業(yè)務(wù)阻塞。
體驗(yàn)優(yōu)化說明:創(chuàng)建/編輯實(shí)體的第一步中的主表、輔表支持選擇當(dāng)前項(xiàng)目數(shù)據(jù)源 schema 下的所有表、視圖。
3.群組列表中,創(chuàng)建人支持篩選
下拉框默認(rèn)展示前20個創(chuàng)建人,其余內(nèi)容需通過搜索查詢。

4.項(xiàng)目管理頁成員管理支持對角色做篩選

指標(biāo)管理平臺
新增功能更新
1.共享指標(biāo)支持綁定維度對象、維度屬性
背景:上一版本新增了維度管理功能,后續(xù)指標(biāo)加工將依賴綁定的維度內(nèi)容識別維度一致性,共享指標(biāo)需綁定已有維度才能與自有指標(biāo)做復(fù)合指標(biāo)加工。
新增功能說明:「指標(biāo)中心」-「指標(biāo)開發(fā)」-「指標(biāo)定義」-「共享指標(biāo)」中顯示了共享給當(dāng)前項(xiàng)目的指標(biāo),點(diǎn)擊「關(guān)聯(lián)維度」即可與自有維度綁定。

2.模型支持共享給其他項(xiàng)目使用
背景:原指標(biāo)共享使用過程中,客戶會有根據(jù)自己項(xiàng)目的業(yè)務(wù)需求基于源表做指標(biāo)加工的需要,因源表無法獲取導(dǎo)致數(shù)據(jù)無法正常加工。
新增功能說明:
? 「指標(biāo)共享」-「模型共享」新增模型共享

? 點(diǎn)擊「新增模型共享」可將指定項(xiàng)目的模型共享給其他項(xiàng)目。整體設(shè)置內(nèi)容與指標(biāo)共享類似,特殊地方為模型共享粒度當(dāng)前支持表級別共享,即根據(jù)共享規(guī)則設(shè)置的條件分別針對模型中的每張表設(shè)置過濾條件,將過濾結(jié)果以視圖形式共享到目標(biāo)項(xiàng)目

? 共享的模型可在項(xiàng)目內(nèi)的「指標(biāo)中心」-「數(shù)據(jù)管理」-「數(shù)據(jù)模型」中的「共享模型」tab 查看,對于需要在原模型基礎(chǔ)上增加自有表形成新模型的需求場景,可通過復(fù)制功能實(shí)現(xiàn)。點(diǎn)擊復(fù)制,填寫模型名稱、編碼等信息,生成新模型后,編輯模型,設(shè)置對應(yīng)的維度信息、模型存儲信息后即可發(fā)布,發(fā)布后的模型可正常用于后續(xù)指標(biāo)加工

3.維度支持共享給其他項(xiàng)目使用
背景:在指標(biāo)管理過程中,會有對維度做全平臺統(tǒng)一管理的需要,當(dāng)進(jìn)行指標(biāo)共享時(shí),便于理解指標(biāo)維度的含義。
新增功能說明:
? 「指標(biāo)共享」-「維度共享」新增維度共享

? 點(diǎn)擊「新增維度共享」可將指定項(xiàng)目的維度共享給其他項(xiàng)目,整體設(shè)置內(nèi)容與指標(biāo)共享類似,只需設(shè)置基礎(chǔ)共享內(nèi)容即可

? 共享的維度可在項(xiàng)目內(nèi)的「指標(biāo)中心」-「數(shù)據(jù)管理」-「維度管理」中的「共享維度」tab 查看,模型、自定義指標(biāo)加工時(shí)選擇的維度信息可引用共享來的維度

4.指標(biāo)共享時(shí)支持同步共享血緣上游指標(biāo)、數(shù)據(jù)模型、維度對象
新增功能說明:
新建指標(biāo)共享時(shí),【第一步:設(shè)置通用共享信息】中的作用范圍可增加血緣上游指標(biāo)、數(shù)據(jù)模型、維度對象。
增加后,【第二步:設(shè)置共享?xiàng)l件】將針對每個單獨(dú)的指標(biāo)、模型設(shè)置共享?xiàng)l件,對于其中存在的共同的條件,可在第一步的公共維度共享規(guī)則中進(jìn)行批量設(shè)置,最終共享規(guī)則將以第二步設(shè)置的內(nèi)容為準(zhǔn)。
5.上游內(nèi)容更新后,下游內(nèi)容支持聯(lián)動更新
? 統(tǒng)計(jì)周期變更后,引用該統(tǒng)計(jì)周期的派生指標(biāo)的自動更新版本,變更統(tǒng)計(jì)周期相關(guān)的 SQL 片段
? 數(shù)據(jù)模型的維度增加并發(fā)布時(shí),原子指標(biāo)維度自動更新,增加新維度;減少時(shí),所有使用到該維度的指標(biāo)均更新,去除引用維度
? 原子指標(biāo)技術(shù)信息變更并發(fā)布后(計(jì)算邏輯、精度、為空默認(rèn)值),引用該原子指標(biāo)的派生指標(biāo)自動更新計(jì)算公式
? 派生指標(biāo)、復(fù)合指標(biāo)、自定義指標(biāo)的維度減少并發(fā)布時(shí),下游指標(biāo)自動更新,去除引用維度
功能優(yōu)化
1.模型詳情中顯示存儲方式、維度管理信息、調(diào)度信息
? 模型詳情中的「基本信息」中的【模型信息】模塊增加存儲方式顯示
? 模型詳情中的「基本信息」中的【數(shù)據(jù)信息】模塊中的維度增加維度對象、維度屬性信息顯示
? 模型詳情中的「調(diào)度信息」顯示調(diào)度相關(guān)信息,包括表/任務(wù)信息、調(diào)度信息、數(shù)據(jù)生命周期等
2.任務(wù)選擇中支持選擇落表模型對應(yīng)的模型任務(wù)
模型、指標(biāo)調(diào)度信息設(shè)置中,選擇上游任務(wù)時(shí),可選擇落表模型生成的任務(wù)。
3.模型 SQL 顯示內(nèi)容優(yōu)化
當(dāng)前模型 SQL 顯示頁面較多,不同頁面顯示內(nèi)容不完全一致,有些增加了調(diào)度信息、有些只展示選中的維度、度量信息,增加理解難度,本次優(yōu)化統(tǒng)一 SQL 顯示內(nèi)容。
4.模型詳情中的「版本變更」中去除「恢復(fù)」功能
背景:增加維度管理后,因后續(xù)指標(biāo)是依賴最新維度信息生成的指標(biāo)維度,若對版本進(jìn)行恢復(fù),將導(dǎo)致模型與指標(biāo)的維度信息不一致的情況。
體驗(yàn)優(yōu)化說明:頁面去除恢復(fù)功能,僅支持查看功能。
5.編輯模型時(shí),不支持修改表別名
背景:模型落表后,將根據(jù)表別名生成模型表字段,修改表別名后,模型表字段將發(fā)生變更,導(dǎo)致后續(xù)計(jì)算時(shí)查詢不到歷史字段。
體驗(yàn)優(yōu)化說明:編輯關(guān)聯(lián)表時(shí),表別名不可修改。
6.模型支持源表字段類型變更或字段減少
源表字段類型變更或字段減少時(shí),系統(tǒng)將彈出受影響的業(yè)務(wù)限定、指標(biāo)、權(quán)限設(shè)置、API,用戶需手動編輯后生效。
7.其他功能優(yōu)化
· 數(shù)據(jù)權(quán)限、API 的公共維度判斷調(diào)整為基于維度對象、維度屬性判斷
· 指標(biāo)市場的原子指標(biāo)結(jié)果查詢將返回根據(jù)公式計(jì)算的結(jié)果
《數(shù)據(jù)治理行業(yè)實(shí)踐白皮書》下載地址:https://fs80.cn/l134d5?
《數(shù)棧V6.0產(chǎn)品白皮書》下載地址:https://fs80.cn/cw0iw1
想了解或咨詢更多有關(guān)袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbzhan
同時(shí),歡迎對大數(shù)據(jù)開源項(xiàng)目有興趣的同學(xué)加入「袋鼠云開源框架釘釘技術(shù) qun」,交流最新開源技術(shù)信息,qun 號碼:30537511,項(xiàng)目地址:https://github.com/DTStack