2023阿里巴巴全球數(shù)學(xué)競賽預(yù)選賽題/決賽部分題個人解 (五)
應(yīng)用與計(jì)算數(shù)學(xué)題 2.?LLM Reward Collapse
給定一個特定的 prompt,讓 LLM 生成??個回答。標(biāo)注者將這?
?個回答從最好到最差排序。設(shè)?
?在?
?上強(qiáng)凹且單調(diào)遞增,我們想訓(xùn)練一個 reward model,為第?
?個回答分配一個?
?的分?jǐn)?shù)。獎勵?
?應(yīng)為如下優(yōu)化問題的解:
(a) 證明
是凹的,并證明上述優(yōu)化問題有唯一解?。
(b)?證明上述解滿足:(1)?;(2)?對任意?
,
。
(c)?設(shè)當(dāng)??時(shí),
?的經(jīng)驗(yàn)分布收斂于區(qū)間?
?上的概率測度?
。此時(shí)優(yōu)化問題即為
若??在一個概率測度?
?上取得最大值,證明:
?不依賴于?
。

(a) 與 (b):該優(yōu)化問題的解記為?。直接由定義得
因此??是凹的。特別地,上述不等式取等當(dāng)且僅當(dāng)對任意?
?都有?
。由于?
?是遞增的,因此?
,這說明優(yōu)化問題的解是唯一的(若有兩個不同的解?
,則?
?使得?
?更大)。
下面再證明最優(yōu)解滿足?。若不然,則存在?
?使得?
?但?
。但此時(shí)考察
此時(shí)
這與??的最優(yōu)性矛盾。
最后,令?,則?
,故?
。根據(jù)解的唯一性可知?
,因此?
。
(c)??為最優(yōu)解?
?在?
?時(shí)所收斂的概率測度,設(shè)其對應(yīng)的概率密度為?
,其中?
?為常數(shù)。令
則
由于??在緊集?
?上連續(xù),那么?
?也是連續(xù)的。因此,如果?
?不是常數(shù),那么我們可以考慮?
?使得?
,
,此時(shí)?
,矛盾。

下面的題賽時(shí)并沒有選,只是出于個人喜好和某人一起做的。

組合與概率題 5.?證明:對任意?,存在?
使得任取?
,所有邊數(shù)不少于?
的?
階簡單圖包含一個圈?
滿足:其至少有?
條弦。這里?
?是集合的勢。(圈
中弦是一條邊,其連接?
?中兩個頂點(diǎn)但不屬于?
?的邊集?
。)

先來吐槽這個題,一方面是因?yàn)閷诠接忠宀幌铝耍硪环矫媸沁@是個 open problem,直到開賽前 3 天有一篇文章掛在 arxiv 上解決了這個問題(https://arxiv.org/abs/2306.09157),就很離譜。