Databend 開源周報(bào)第 111 期

Databend[1] 是一款現(xiàn)代云數(shù)倉。專為彈性和高效設(shè)計(jì),為您的大規(guī)模分析需求保駕護(hù)航。自由且開源。即刻體驗(yàn)云服務(wù):https://app.databend.cn 。
What's On In Databend
探索 Databend 本周新進(jìn)展,遇到更貼近你心意的 Databend 。
理解 SHARE ENDPOINT
SHARE ENDPOINT 是 Databend 數(shù)據(jù)共享中的一個(gè)重要概念,用于指定數(shù)據(jù)共享實(shí)例的端點(diǎn)和租戶名稱。數(shù)據(jù)的訪問方和使用方需要定義 SHARE POINT 來幫助 Databend 實(shí)例定位和訪問與其共享的數(shù)據(jù)。
例如,如果租戶 A 對(duì)租戶 B 共享數(shù)據(jù),那么租戶 B 需要?jiǎng)?chuàng)建對(duì)應(yīng)的 SHARE ENDPOINT,使租戶 B 所處的實(shí)例能夠定位和訪問共享的數(shù)據(jù)。
如果您想了解更多信息,請(qǐng)查看下面列出的資源。
Docs | SHARE ENDPOINT[2]
Code Corner
一起來探索 Databend 和周邊生態(tài)中的代碼片段或項(xiàng)目。
使用 Python 創(chuàng)建 UDF
Databend 現(xiàn)在支持 UDF Server 以提供更靈活和實(shí)用的函數(shù)自定義能力。用戶可以使用自己喜愛的編程語言,結(jié)合 Apache Arrow Flight API 實(shí)現(xiàn) UDF Server 來與 Databend 交互,從而拓展數(shù)據(jù)庫的邊界,實(shí)現(xiàn)更豐富和高效的數(shù)據(jù)工作流。
要啟用這一特性,需要使用 "v1.2.116-nightly"
及之后版本,并在?"databend-query"
的配置文件中啟用 UDF Server 支持和外部訪問許可:
下面的程序展示了如何利用 Python 創(chuàng)建用于計(jì)算最大公約數(shù)的 UDF Server 。
對(duì)應(yīng)到 Databend 中,則可以使用下面的 SQL 語句注冊(cè) UDF 。
CREATE FUNCTION gcd (INT, INT) RETURNS INT LANGUAGE python HANDLER = 'gcd' ADDRESS = 'http://0.0.0.0:8815';
這一功能尚在預(yù)覽階段,目前我們提供用于示例和測試的 Python SDK 文件,后續(xù)將會(huì)推出更多 SDK ,歡迎感興趣的朋友參與到 UDF 生態(tài)共建之中。
如果您想了解更多信息,請(qǐng)查看下面列出的資源。
PR #12802 | feat: implement udf server in databend[3]
Docs | UDF Server[4]
Highlights
以下是一些值得注意的事件,也許您可以找到感興趣的內(nèi)容。
支持 infer filter 。
支持冪等刪除。
SQLSmith 測試支持生成聚合函數(shù)、標(biāo)量函數(shù)和表達(dá)式。
閱讀文檔 Docs | INSERT INTO[5] 和 Docs | REPLACE INTO[6] ,了解如何使用 SQL 語句將 Stage 中數(shù)據(jù)插入到表中。
What's Up Next
我們始終對(duì)前沿技術(shù)和創(chuàng)新理念持開放態(tài)度,歡迎您加入社區(qū),為 Databend 注入活力。
為 Stage 中的 Parquet 文件提供緩存支持
Databend 為查詢和內(nèi)部數(shù)據(jù)支持了多種不同類型和功能緩存,以改善查詢性能,比如查詢混存(Query Cache)、文件元數(shù)據(jù)緩存(File Metadata Cache)、數(shù)據(jù)緩存(Data Cache)等。
但是對(duì)于位于 Stage 的文件,還缺乏有效的緩存支持。如果能夠?yàn)?Stage 中的 Parquet 提供元數(shù)據(jù)緩存或者對(duì)象緩存,將有助于改善對(duì)外置數(shù)據(jù)查詢的性能。
select * from 's3://aa/bb/cc/' (pattern => '.*.parquet')
Issue #12762 | feat: add object cache for stage parquet file[7]
如果你對(duì)這個(gè)主題感興趣,可以嘗試解決其中的部分問題或者參與討論和 PR review 。或者,你可以點(diǎn)擊 https://link.databend.rs/i-m-feeling-lucky 來挑選一個(gè)隨機(jī)問題,祝好運(yùn)!
New Contributors
一起認(rèn)識(shí)社區(qū)中的新伙伴,Databend 因你們而變得更加美好。
@nagarajatantry[8] 修復(fù)了文檔中失效的超鏈接,#12836[9] 。
@ct20000901[10] 修復(fù)了 "
array_sort"
無法正確處理空數(shù)組和 NULL 的問題,#12827[11] 。
Changelog
前往查看 Databend 每日構(gòu)建的變更日志,以了解開發(fā)的最新動(dòng)態(tài)。
地址:https://github.com/datafuselabs/databend/releases
Contributors
非常感謝貢獻(xiàn)者們?cè)诒局艿淖吭焦ぷ鳌?/p>
引用鏈接
[1]
?Databend:?https://github.com/datafuselabs/databend[2]
?Docs | SHARE ENDPOINT:?https://databend.rs/doc/sql-commands/ddl/share-endpoint/[3]
?PR #12802 | feat: implement udf server in databend:?https://github.com/datafuselabs/databend/issues/12802[4]
?Docs | UDF Server:?https://github.com/datafuselabs/databend/blob/main/tests/udf-server/README.md[5]
?Docs | INSERT INTO:?https://databend.rs/doc/sql-commands/dml/dml-insert[6]
?Docs | REPLACE INTO:?https://databend.rs/doc/sql-commands/dml/dml-replace[7]
?Issue #12762 | feat: add object cache for stage parquet file:?https://github.com/datafuselabs/databend/issues/12762[8]
?@nagarajatantry:?https://github.com/nagarajatantry[9]
?#12836:?https://github.com/datafuselabs/databend/pull/12836[10]
?@ct20000901:?https://github.com/ct20000901[11]
?#12827:?https://github.com/datafuselabs/databend/pull/12827
Connect With Us
Databend 是一款開源、彈性、低成本,基于對(duì)象存儲(chǔ)也可以做實(shí)時(shí)分析的新式數(shù)倉。期待您的關(guān)注,一起探索云原生數(shù)倉解決方案,打造新一代開源 Data Cloud。
Databend Website
GitHub Discussions
Twitter
Slack Channel