VLDB 2023 最佳論文分享!進(jìn)來(lái)看數(shù)據(jù)庫(kù)領(lǐng)域最新研究進(jìn)展
VLDB(International Conference on Very Large Data Bases)是數(shù)據(jù)庫(kù)三大國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,每屆會(huì)議都設(shè)有研究(Research Track)、工業(yè)(Industrial Track)等方向,展示了當(dāng)前數(shù)據(jù)庫(kù)領(lǐng)域的前沿方向以及工業(yè)界最新的技術(shù)進(jìn)展。
VLDB每年的錄用率在18%左右,對(duì)作品的創(chuàng)新性、完整性、實(shí)驗(yàn)設(shè)計(jì)等方面要求十分嚴(yán)格,因此每篇錄用論文質(zhì)量都非常高,對(duì)于推動(dòng)數(shù)據(jù)驅(qū)動(dòng)決策、智能系統(tǒng)演進(jìn)、應(yīng)用創(chuàng)新等具有重要意義。
今年的VLDB 2023會(huì)議在加拿大溫哥華落幕,共有9篇論文脫穎而出,榮獲最佳論文獎(jiǎng)。
為了方便同學(xué)們學(xué)習(xí),今天學(xué)姐就幫大家整理了一下,除最佳論文獎(jiǎng)之外,還補(bǔ)充了獲2023 VLDB時(shí)間考驗(yàn)獎(jiǎng)的論文,建議大家收藏起來(lái)慢慢看。
掃碼添加小享,回復(fù)“VLDB”??
免費(fèi)獲取全部論文+代碼合集

最佳研究論文獎(jiǎng)
Auto-Tables: Synthesizing Multi-Step Transformations to Relationalize Tables without Using Examples
標(biāo)題:自動(dòng)表格:綜合多步轉(zhuǎn)換以關(guān)系化表格而無(wú)需使用示例
作者:Peng Li (佐治亞理工學(xué)院); Yeye He (微軟研究院); Cong Yan (微軟研究院); Yue Wang (微軟研究院); Surajit Chaudhuri (微軟研究院)
內(nèi)容:作者提出了一個(gè)名為"Auto-Tables"的系統(tǒng),它可以自動(dòng)化將非關(guān)系型表格轉(zhuǎn)化為標(biāo)準(zhǔn)的關(guān)系型格式,使用多步驟的轉(zhuǎn)換過(guò)程,而無(wú)需用戶(hù)手動(dòng)干預(yù)。作者進(jìn)行了廣泛的測(cè)試,并發(fā)現(xiàn)該系統(tǒng)可以在超過(guò)70%的測(cè)試案例中成功地快速轉(zhuǎn)換,而無(wú)需用戶(hù)的輸入,使其成為數(shù)據(jù)準(zhǔn)備和分析的有價(jià)值工具,適用于技術(shù)水平各異的用戶(hù)。

DBSP: Automatic Incremental View Maintenance for Rich Query Languages
標(biāo)題:DBSP: 富查詢(xún)語(yǔ)言的自動(dòng)增量視圖維護(hù)
作者:Mihai Budiu (VMware 研究院); Tej Chajed (VMware 研究院); Frank McSherry (Materialize); Leonid Ryzhyk (VMware 研究院); Val Tannen (賓夕法尼亞大學(xué))
內(nèi)容:論文提供了增量視圖維護(hù)在數(shù)據(jù)庫(kù)理論中的長(zhǎng)期核心問(wèn)題的通用解決方案:(1)描述了一種稱(chēng)為DBSP的簡(jiǎn)單但表達(dá)力強(qiáng)的語(yǔ)言,用于描述對(duì)數(shù)據(jù)流的計(jì)算;(2)提供了一個(gè)通用算法,用于解決任意DBSP程序的增量視圖維護(hù)問(wèn)題;(3)展示如何使用DBSP對(duì)許多豐富的數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言進(jìn)行建模(包括全面的關(guān)系查詢(xún)、分組和聚合、單調(diào)和非單調(diào)遞歸以及流式聚合),從而獲得了所有這些豐富語(yǔ)言的高效增量視圖維護(hù)技術(shù)。

最佳研究論文亞軍
PIM-tree: A Skew-resistant Index for Processing-in-Memory
標(biāo)題:PIM-tree:一個(gè)抗偏斜的內(nèi)存處理索引
作者:Hongbo Kang (清華大學(xué)); Yiwei Zhao (卡內(nèi)基梅隆大學(xué)); Guy E Blelloch (卡內(nèi)基梅隆大學(xué)); Laxman Dhulipala (馬里蘭大學(xué)學(xué)院市分校); Yan Gu (加州大學(xué)河濱分校); Charles McGuffey (里德學(xué)院); Phillip B Gibbons (卡內(nèi)基梅隆大學(xué))
內(nèi)容:這篇論文提出了一種面向PIM系統(tǒng)的有序索引結(jié)構(gòu)PIM樹(shù),可以在工作負(fù)載存在不同程度的偏斜時(shí)仍保持低通信量和高負(fù)載平衡,從而大幅提升內(nèi)存索引的性能。該方法是基于主機(jī)CPU和PIM節(jié)點(diǎn)之間的新型分工,并引入了根據(jù)工作負(fù)載偏斜動(dòng)態(tài)調(diào)整的推拉搜索機(jī)制。在實(shí)際PIM系統(tǒng)上的實(shí)現(xiàn)表明,相比現(xiàn)有PIM索引方法,PIM樹(shù)可以提供更高的吞吐量。

最佳實(shí)驗(yàn)、分析與基準(zhǔn)論文獎(jiǎng)
The LDBC Social Network Benchmark: Business Intelligence Workload
標(biāo)題:LDBC社交網(wǎng)絡(luò)基準(zhǔn):商業(yè)智能工作負(fù)載
作者:Gabor Szarnyas (CWI); Jack Waudby (紐卡斯?fàn)柎髮W(xué)); Ben Steer (pometry); David Szakallas (LDBC); Altan Birler (TUM); Mingxi Wu (Tigergraph); Yuchen Zhang (TigerGraph); Peter Boncz (CWI)
內(nèi)容:SNB BI是第一個(gè)面向支持圖工作負(fù)載的分析數(shù)據(jù)系統(tǒng)的全面圖OLAP基準(zhǔn)測(cè)試。它的特點(diǎn)是:1)使用復(fù)雜的數(shù)據(jù)生成器產(chǎn)生具有小世界現(xiàn)象的社交網(wǎng)絡(luò)圖;2)查詢(xún)工作負(fù)載利用數(shù)據(jù)的偏斜性和相關(guān)性;3)首次在基準(zhǔn)中采用參數(shù)策展技術(shù);4)定義了兩個(gè)評(píng)測(cè)指標(biāo)。該基準(zhǔn)測(cè)試可以促進(jìn)未來(lái)圖數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展。

最佳實(shí)驗(yàn)、分析與基準(zhǔn)論文亞軍
Epistemic Parity: Reproducibility as an Evaluation Metric for Differential Privacy
標(biāo)題:認(rèn)識(shí)論均等:可復(fù)制性作為差分隱私的評(píng)估指標(biāo)
作者:Lucas Rosenblatt (紐約大學(xué)); Bernease Herman (華盛頓大學(xué)); Anastasia Holovenko (烏克蘭天主教大學(xué)); Wonkwon Lee (紐約大學(xué)); Joshua Loftus (倫敦經(jīng)濟(jì)學(xué)院); Elizabeth McKinnie (微軟); Taras Rumezhak (烏克蘭天主教大學(xué)); Andrii Stadnik (烏克蘭天主教大學(xué)); Bill G Howe (華盛頓大學(xué)); Julia Stoyanovich (紐約大學(xué))
內(nèi)容:這篇文章提出了一種針對(duì)差分隱私數(shù)據(jù)合成器的新的評(píng)估方法,該方法通過(guò)重現(xiàn)使用真實(shí)數(shù)據(jù)的同行評(píng)議論文的結(jié)論,在合成數(shù)據(jù)上重新運(yùn)行實(shí)驗(yàn),比較結(jié)果,來(lái)估計(jì)結(jié)論在使用合成數(shù)據(jù)時(shí)是否會(huì)改變。結(jié)果表明,當(dāng)前的差分隱私合成器在一定隱私級(jí)別下可以實(shí)現(xiàn)較高的重現(xiàn)性,但對(duì)某些論文及結(jié)論的重現(xiàn)仍具挑戰(zhàn)。因此需要開(kāi)發(fā)新型機(jī)制,優(yōu)先保證效用而非僅僅隱私。

掃碼添加小享,回復(fù)“VLDB”??
免費(fèi)獲取全部論文+代碼合集

A Deep Dive into Common Open Formats for Analytical DBMSs
標(biāo)題:對(duì)分析型DBMS的常見(jiàn)開(kāi)放格式的深入探究
作者:Chunwei Liu (MIT); Anna Pavlenko (微軟 Gray Systems實(shí)驗(yàn)室); Matteo Interlandi (微軟); Brandon Haynes (微soft Gray Systems實(shí)驗(yàn)室)
內(nèi)容:這篇論文評(píng)估了Apache Arrow、Parquet和ORC作為分析型數(shù)據(jù)庫(kù)管理系統(tǒng)中支持歸納的格式的適用性。作者系統(tǒng)地確定和探索了支持現(xiàn)代OLAP數(shù)據(jù)庫(kù)管理系統(tǒng)高效查詢(xún)的重要的高級(jí)特性,并評(píng)估了每種格式支持這些特性的能力。作者發(fā)現(xiàn)每種格式都有權(quán)衡取舍,使其作為數(shù)據(jù)庫(kù)管理系統(tǒng)中的格式更適合或不太適合,并確定了更全面協(xié)同設(shè)計(jì)統(tǒng)一內(nèi)存和磁盤(pán)數(shù)據(jù)表示的機(jī)會(huì)。
最佳行業(yè)論文獎(jiǎng)
Kora: A Cloud-Native Event Streaming Platform For Kafka
標(biāo)題:Kora:一個(gè)面向Kafka的云原生事件流平臺(tái)
內(nèi)容:Confluent Cloud是一個(gè)用于事件流處理的云原生解決方案,其核心是建立在Apache Kafka之上的Kora平臺(tái)。本文介紹了Kora的設(shè)計(jì),它實(shí)現(xiàn)了云原生的目標(biāo),如可靠性、彈性和成本效率。Kora提供了抽象,使用戶(hù)可以根據(jù)工作負(fù)載需求進(jìn)行思考,而不需要考慮底層基礎(chǔ)設(shè)施。Kora還致力于在不同的云環(huán)境下提供一致可預(yù)測(cè)的性能表現(xiàn)??傮w來(lái)說(shuō),Kora是一個(gè)面向Apache Kafka的云原生平臺(tái),為Confluent Cloud提供支持。
最佳行業(yè)亞軍
PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel
標(biāo)題:PyTorch FSDP:在完全分片數(shù)據(jù)并行上的經(jīng)驗(yàn)
內(nèi)容:本文介紹了PyTorch Fully Sharded Data Parallel (FSDP),這是大模型訓(xùn)練的業(yè)界級(jí)解決方案。FSDP與PyTorch的幾個(gè)關(guān)鍵組件如張量實(shí)現(xiàn)、調(diào)度系統(tǒng)和CUDA內(nèi)存緩存分配器緊密協(xié)作,以提供無(wú)縫的用戶(hù)體驗(yàn)和高訓(xùn)練效率。此外,F(xiàn)SDP內(nèi)置了一系列技術(shù)和設(shè)置來(lái)優(yōu)化各種硬件配置的資源利用。實(shí)驗(yàn)結(jié)果表明,F(xiàn)SDP能夠達(dá)到分布式數(shù)據(jù)并行的可比性能,并為規(guī)模更大的模型提供近乎線性的可擴(kuò)展性。

FEBench: A Benchmark for Real-Time Relational Data Feature Extraction
標(biāo)題:FEBench: 用于實(shí)時(shí)關(guān)系數(shù)據(jù)特征提取的基準(zhǔn)
作者:Xuanhe Zhou(清華大學(xué)); Cheng Chen(第四范式); Kunyi Li(清華大學(xué)); Bingsheng He(新加坡國(guó)立大學(xué)); mian lu(第四范式公司)*; Qiaosheng Liu(第四范式); Wei Huang(第四范式); Guoliang Li(清華大學(xué)); zhao zheng(第四范式公司); Yuqiang Chen(第四范式)
內(nèi)容:論文提出了一個(gè)名為FEBench的實(shí)時(shí)特征提取基準(zhǔn)測(cè)試,該基準(zhǔn)測(cè)試基于Jim Gray提出的特定領(lǐng)域基準(zhǔn)測(cè)試的四個(gè)重要標(biāo)準(zhǔn)。FEBench由選定的代表性數(shù)據(jù)集、查詢(xún)模板和在線請(qǐng)求模擬器組成。作者使用FEBench來(lái)評(píng)估包括OpenMLDB和Flink在內(nèi)的特征提取系統(tǒng)的效果。并發(fā)現(xiàn)每個(gè)系統(tǒng)在整體延遲、尾延遲和并發(fā)性能方面都展現(xiàn)出獨(dú)特的優(yōu)勢(shì)和局限性。

2023 VLDB時(shí)間考驗(yàn)獎(jiǎng)
Distributed Graphlab: A framework for machine learning in the cloud
標(biāo)題:分布式Graphlab:一個(gè)云計(jì)算機(jī)器學(xué)習(xí)框架
作者:Yucheng Low, Joseph Gonzalez(加州大學(xué)伯克利分校), Aapo Kyrola, Danny Bickson, Carlos Guestrin, Joseph M. Hellerstein(加州大學(xué)伯克利分校)
內(nèi)容:在本文中,作者將GraphLab框架擴(kuò)展到了substaintially更具挑戰(zhàn)性的分布式環(huán)境,同時(shí)保留了強(qiáng)的數(shù)據(jù)一致性保證。作者開(kāi)發(fā)了基于圖形的管道鎖定和數(shù)據(jù)版本控制擴(kuò)展,以減少網(wǎng)絡(luò)擁塞并減輕網(wǎng)絡(luò)延遲的影響。作者還使用經(jīng)典的Chandy-Lamport快照算法為GraphLab引入了容錯(cuò)能力,并演示了如何通過(guò)利用GraphLab抽象本身來(lái)輕松實(shí)現(xiàn)它。

掃碼添加小享,回復(fù)“VLDB”??
免費(fèi)獲取全部論文+代碼合集
