散文網(wǎng) » 科技 »學(xué)習(xí) » ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法

ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法

2023-07-24 14:13 作者:北大前沿計算研究中心 0人讀過 | 我要投稿

導(dǎo) 讀

本文是 ICML 2023 入選論文 Near-Optimal Quantum Coreset Construction Algorithms for Clustering 的解讀。該論文作者為北京大學(xué)計算機學(xué)院博士生薛燁誠、信息科學(xué)技術(shù)學(xué)院圖靈班本科生陳曉雨，以及前沿計算研究中心的助理教授李彤陽博士和姜少峰博士。

論文地址：https://arxiv.org/abs/2306.02826

01

引言：什么是量子計算？

量子計算（Quantum Computing）是一種不同于經(jīng)典計算機的計算模型。上世紀七八十年代，隨著量子力學(xué)的發(fā)展，相關(guān)研究提出了觀測、模擬量子系統(tǒng)的需求，而構(gòu)建遵循量子力學(xué)而非經(jīng)典物理原理的“量子計算機”的想法也應(yīng)運而生。1982年，F(xiàn)eynman 提出，用經(jīng)典計算機模擬量子體系的演化具有本質(zhì)的困難，而使用“量子計算機”來完成這些工作也許是一條可行的道路。1985年，Deutsch 從理論計算機的角度思考和提出了“通用量子計算機”的概念。1994年，Shor 提出的大數(shù)質(zhì)因數(shù)分解的量子算法向人們揭示了量子計算可觀的加速潛能。如今，量子計算仍在蓬勃發(fā)展。將量子計算應(yīng)用于機器學(xué)習(xí)、對機器學(xué)習(xí)問題研究更快的量子算法也成為一個方興未艾的研究領(lǐng)域。

目前，一種常用的量子機器學(xué)習(xí)算法設(shè)計方法是，使用經(jīng)典的算法框架，而在算法的具體實現(xiàn)中，一些較為復(fù)雜、在經(jīng)典計算機上耗時較多的子過程由量子設(shè)備來完成。我們的算法也屬于這一類雜交算法。Grover 算法[1]（或者更廣泛地， amplitude amplification 算法）及在此基礎(chǔ)上衍生出的種種量子子程序常在這一類算法中起到重要作用。

我們簡單介紹一下最簡單版本的 Grover 算法?？紤]在一個規(guī)模為 N 的數(shù)據(jù)集中尋找一個特定的數(shù)據(jù)點。我們事先不知道關(guān)于這一數(shù)據(jù)點的任何信息，只能在數(shù)據(jù)集中任意拿出一個點，并判斷它是不是我們要尋找的。在經(jīng)典計算模型下，每次取樣得到所求數(shù)據(jù)點的概率為1/N，需要O(N)次訪問才能保證以常數(shù)概率得到所求的數(shù)據(jù)點。而在量子計算模型下，我們可以構(gòu)造這樣一個量子態(tài)：

這是一個均勻疊加態(tài)。由于量子力學(xué)的規(guī)則，其每個分量的振幅為1/\sqrt{N}而非1/N。我們可以將一些量子操作作用于這一量子態(tài)上，使得在所求數(shù)據(jù)點的振幅較小的時候，每次操作其振幅都有大約O(1/\sqrt{N})的增長。在測量量子態(tài)時，振幅模長的平方即為測量得到相應(yīng)分量的概率。因此在量子計算中，我們只需O(\sqrt{N}) 次操作即可保證以常數(shù)概率得到所求數(shù)據(jù)點。這相對于經(jīng)典計算有平方加速。

利用 Grover 算法的原理，人們研究出了種類多樣、用途廣泛的量子子程序。比如 Brassard 等人的量子計數(shù)算法[2]，Hamoudi 的多個量子態(tài)制備算法[3]等等。

02

問題描述：聚類問題的核心集

聚類（clustering）是一類重要的無監(jiān)督機器學(xué)習(xí)問題。這類問題關(guān)注的是，對于一系列雜亂無章而可能存在潛在的數(shù)據(jù)模式的數(shù)據(jù)點，如何將它們合理地劃分為不同的類別。k-median 問題是最基礎(chǔ)、最受關(guān)注的聚類問題之一，其定義為：

設(shè)在d維歐氏空間中有一個規(guī)模為n的數(shù)據(jù)集D，給定一個整數(shù)參數(shù)k，求一個歐氏空間中規(guī)模為k的點集C ，使得其代價函數(shù)

最小。這里dist(x, C)為數(shù)據(jù)點x到集合C的l_{2}距離。k-means 問題與之類似，唯一的區(qū)別是代價函數(shù)被定義為距離之平方的和。

精確地求解k-median 問題是 NP 難的。因此，一個重要的研究方向是求 k-median 問題的近似解。核心集是求解聚類問題近似解的一項有力技術(shù)。一個ε核心集往往由一個規(guī)模較小（常常只有poly(k)）的集合S和該集合上的一個權(quán)重函數(shù)構(gòu)成，使得對于歐氏空間中任何一個規(guī)模不大于k的集合C，都有

這意味著，對任何一個可行解C，用原始數(shù)據(jù)集D和核心集S計算代價函數(shù)所得的結(jié)果是極為接近的。因此，任何一個對小規(guī)模核心集S的近似解也是對原始數(shù)據(jù)集D的一個近似解。在得到核心集后，為得到原問題的近似解，只需在核心集上運行一個求解算法即可。

03

理論成果：\tilde{O}(\sqrt{n k})的量子核心集構(gòu)造算法

本論文首次提出了一種能夠在\tilde{O}(\sqrt{n k})時間內(nèi)構(gòu)造核心集的量子算法。算法所構(gòu)造的核心集規(guī)模為poly(k)。人們可以進而在這一核心集上運行一個求解算法，并得到原問題的一個近似解。下表中列出了論文所得的一些結(jié)果及其與經(jīng)典結(jié)果的對比。

表格中的定理編號為論文中的編號。表格中呈現(xiàn)了我們對k-median 和 k-means 這兩種最受關(guān)注的聚類問題的結(jié)果，包括算法復(fù)雜度和相符合的下界。此前，關(guān)于此類問題最好的經(jīng)典結(jié)果是 Braverman 等人提出的 k-median 核心集構(gòu)造算法[4]，其時間復(fù)雜度為O(n+poly(k))。而我們的量子算法是亞線性的，打破了經(jīng)典算法自然的線性時間復(fù)雜度下界。并且從我們所證明的量子復(fù)雜度下界中可以看出，在忽略對數(shù)因子的情況下，我們的算法是最優(yōu)的。

對于更普遍的(k,z)-clustering 問題，我們的算法同樣適用。在論文中，我們給出了對一般(k,z) -clustering 問題的量子算法及其正確性證明。

04

技術(shù)概述：經(jīng)典算法的量子實現(xiàn)和多維量子計數(shù)算法

我們算法設(shè)計的主要思路是選擇了兩個已有的經(jīng)典算法并完成了它們量子化的實現(xiàn)，通過將一些在經(jīng)典計算機上耗時較長的子過程替換為能夠完成相同任務(wù)的量子算法來獲得加速。我們首先用 Thorup 的近似求解算法[5]得到一個雙標準近似解A，然后在這一近似解基礎(chǔ)上，利用 Cohen-Addad 等人的核心集構(gòu)造算法[6]來構(gòu)造一個核心集。

Cohen-Addad 等人的核心集構(gòu)造算法主要包括兩個階段：首先，將整個數(shù)據(jù)集D利用A劃分為一系列每組內(nèi)數(shù)據(jù)點有一定相似性的群組，群組的數(shù)目與n和k無關(guān)；然后在每個群組中進行抽樣，將抽得的樣本點賦權(quán)，以此構(gòu)成核心集。對后一個階段，我們將原來的經(jīng)典抽樣方法換成了量子抽樣。在前一個階段中，算法首先將數(shù)據(jù)集以A中的點為中心分為若干類，對于每個類計算其規(guī)模大小等性質(zhì)，并據(jù)此將每個類劃分成一系列環(huán)。然后通過計算這些環(huán)的一些性質(zhì)，將性質(zhì)相似的環(huán)聚合為一個群組。為以量子方式在盡量短的時間內(nèi)完成這種對每個類、每個環(huán)的性質(zhì)的計算，我們提出了多維量子計數(shù)算法。這一算法在其他量子機器學(xué)習(xí)問題中也可能發(fā)揮作用。

考慮一個規(guī)模為n的數(shù)據(jù)集D，這一數(shù)據(jù)集被劃分為m個子集，有一個映射告訴我們每個數(shù)據(jù)點被劃分到了哪個子集中。試求每個子集中的元素個數(shù)。

這一問題在經(jīng)典計算機上似乎需要至少Ω(n)時間來求解，因為我們必須知道每一個數(shù)據(jù)點被劃分到了哪個子集。我們給出了一個量子算法，可以在 \tilde{O}(\sqrt{n m}/ε) 時間內(nèi)求得對所有子集規(guī)模的ε估計。我們同時證明了一個相應(yīng)的下界，說明我們的算法在忽略對數(shù)因子的情況下是最優(yōu)的。

考慮另外給出D上的一個有界函數(shù)，將每個數(shù)據(jù)點映到一個正整數(shù)。假設(shè)我們所求的不再是每個子集的規(guī)模，而是每個子集中所有點所對應(yīng)的函數(shù)值的和。我們的算法經(jīng)過簡單擴展也可以在幾乎相同的時間復(fù)雜度內(nèi)求解這類問題：只需對函數(shù)值寫出其二進制表示，然后逐比特計算其和并將所得結(jié)果相加即可。

參考文獻

[1] Grover, Lov K. "A fast quantum mechanical algorithm for database search." Proceedings of the twenty-eighth annual ACM symposium on Theory of computing. 1996.

[2] Brassard, Gilles, Peter H?yer, and Alain Tapp. "Quantum counting." Automata, Languages and Programming: 25th International Colloquium, ICALP'98 Aalborg, Denmark, July 13–17, 1998 Proceedings 25. Springer Berlin Heidelberg, 1998.

[3] Hamoudi, Yassine. "Preparing many copies of a quantum state in the black-box model." Physical Review A 105.6 (2022): 062440.

[4] Braverman, Vladimir, et al. "Clustering high dimensional dynamic data streams." International Conference on Machine Learning. PMLR, 2017.

[5] Thorup, Mikkel. "Quick k-median, k-center, and facility location for sparse graphs." SIAM Journal on Computing 34.2 (2005): 405-432.

[6] Cohen-Addad, Vincent, David Saulpic, and Chris Schwiegelshohn. "A new coreset framework for clustering." Proceedings of the 53rd Annual ACM SIGACT Symposium on Theory of Computing. 2021.

標簽：

ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法

ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法

本文作者的其他文章

ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

ICML 2023 | 聚類問題近似最優(yōu)的量子核心集構(gòu)造算法的評論 (共條)