最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一文看懂 Linux 性能分析|perf原理(超詳細(xì)~)

2022-10-14 17:31 作者:補(bǔ)給站Linux內(nèi)核  | 我要投稿

最近線(xiàn)上運(yùn)行的程序出現(xiàn)性能問(wèn)題,但通過(guò)分析程序源代碼(Code Review),并找不到導(dǎo)致問(wèn)題的根本原因。所以,只能借助強(qiáng)大的性能分析工具 perf 來(lái)找出問(wèn)題所在。

perf 工具的功能非常強(qiáng)大,但本文并不是介紹 perf 工具的使用,而是介紹 perf 的實(shí)現(xiàn)原理。介紹 perf 使用的文章多如牛毛,但介紹 perf 原理和實(shí)現(xiàn)的卻鳳毛麟角。

但正因?yàn)?perf 功能非常強(qiáng)大,所以其實(shí)現(xiàn)也是非常復(fù)雜的。本文只介紹其中的一個(gè)功能:分析進(jìn)程中的函數(shù)調(diào)用頻率 。

接下來(lái),我們先介紹怎么使用 perf 來(lái)分析進(jìn)程中的函數(shù)調(diào)用頻率。


使用 perf 分析程序性能瓶頸

在介紹 perf 的實(shí)現(xiàn)之前,我們先使用 perf 分析一個(gè)簡(jiǎn)單的程序,此程序代碼如下:

上面的程序很簡(jiǎn)單,我們創(chuàng)建兩個(gè)函數(shù):workload1 和 workload2。從代碼可以看出,workload2 的負(fù)載是 workload1 的2倍。

現(xiàn)在我們使用 perf 來(lái)分析這個(gè)程序的性能瓶頸在哪里。

  • 首先我們將程序編譯成可執(zhí)行文件,編譯時(shí)記得加上 -g 參數(shù),這樣 perf 才能獲取到函數(shù)名。

  • 使用 perf 的 record 命令來(lái)記錄程序的運(yùn)行情況。

運(yùn)行上面的命令后,將會(huì)生成一個(gè) perf.data 的文件,此文件記錄了 sample 程序運(yùn)行時(shí)的采樣數(shù)據(jù)。

  • 使用 perf 的 report 命令分析程序的運(yùn)行情況。

結(jié)果如下圖所示:



從上圖可以看出,函數(shù) workload2(65%)的負(fù)載大概是函數(shù) workload1(35%)的 2 倍,與我們的代碼基本一致。


【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【891587639】整理了一些個(gè)人覺(jué)得比較好的學(xué)習(xí)書(shū)籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。。。ê曨l教程、電子書(shū)、實(shí)戰(zhàn)項(xiàng)目及代碼)? ?

perf 實(shí)現(xiàn)原理

通過(guò)上面的例子,我們大概知道怎么使用 perf 來(lái)分析程序的性能瓶頸。接下來(lái),我們將會(huì)介紹 perf 的內(nèi)部實(shí)現(xiàn)原理。

來(lái)思考一下,如果讓我們來(lái)設(shè)計(jì)一個(gè)統(tǒng)計(jì)程序中各個(gè)函數(shù)占用 CPU 時(shí)間的方案,應(yīng)該如何設(shè)計(jì)?最簡(jiǎn)單的方案就是:在各個(gè)函數(shù)的開(kāi)始記錄當(dāng)前時(shí)間,然后在函數(shù)執(zhí)行結(jié)束后,使用當(dāng)前時(shí)間減去函數(shù)開(kāi)始執(zhí)行時(shí)的時(shí)間,得到函數(shù)的執(zhí)行時(shí)間總時(shí)長(zhǎng)。如下偽代碼:

雖然上述方式可以統(tǒng)計(jì)程序中各個(gè)函數(shù)的耗時(shí)情況,但卻存在很多問(wèn)題:

  1. 代碼入侵度高。由于要對(duì)每個(gè)函數(shù)進(jìn)行耗時(shí)記錄,所以必須在調(diào)用函數(shù)前和調(diào)用函數(shù)后加入統(tǒng)計(jì)代碼。

  2. 統(tǒng)計(jì)函數(shù)耗時(shí),并不能反映該函數(shù)的真實(shí) CPU 使用率。比如函數(shù)內(nèi)部調(diào)用了導(dǎo)致進(jìn)程休眠的系統(tǒng)調(diào)用(如sleep),這時(shí)函數(shù)實(shí)際上是不使用CPU的,但函數(shù)的耗時(shí)卻統(tǒng)計(jì)了休眠的時(shí)間。

  3. 對(duì)性能影響較大。由于程序中所有函數(shù)都加入統(tǒng)計(jì)代碼,所以對(duì)性能的影響是非常大的。

所以我們需要一個(gè)系統(tǒng),它能夠避免上述問(wèn)題:

  1. 零代碼入侵。

  2. 能夠真實(shí)反映函數(shù)的 CPU 使用率。

  3. 對(duì)性能影響較小。

perf 就是為了解決上述問(wèn)題而生的,我們先來(lái)介紹一下 perf 的原理。

采樣

為了減小對(duì)程序性能的影響,perf 并不會(huì)在每個(gè)函數(shù)加入統(tǒng)計(jì)代碼,取而代之的統(tǒng)計(jì)方式是:采樣。

采樣的原理是:設(shè)置一個(gè)定時(shí)器,當(dāng)定時(shí)器觸發(fā)時(shí),查看當(dāng)前進(jìn)程正在執(zhí)行的函數(shù),然后記錄下來(lái)。如下圖所示:


如上圖所示,每個(gè) cpu-clock 是一個(gè)定時(shí)器的觸發(fā)點(diǎn)。在 6 次定時(shí)器觸發(fā)點(diǎn)中,函數(shù) func1 被命中了 3 次,函數(shù) func2 被命中了 1 次,函數(shù) func3 被命中了 2 次。所以,我們可以推測(cè)出,函數(shù) func1 的 CPU 使用率最高。

排序

如果程序有成千上萬(wàn)的函數(shù),那么采樣出來(lái)的數(shù)據(jù)可能非常多,這個(gè)時(shí)候就需要對(duì)采樣的數(shù)據(jù)進(jìn)行排序。

為了對(duì)采樣數(shù)據(jù)進(jìn)行排序,perf 使用紅黑樹(shù)這種數(shù)據(jù)結(jié)構(gòu),如下圖所示:



如上圖所示,在 perf 采樣的數(shù)據(jù)中,有 7 個(gè)函數(shù)被統(tǒng)計(jì)了命中次數(shù),perf 使用采樣到的數(shù)據(jù)構(gòu)建一棵紅黑樹(shù)。

根據(jù)紅黑樹(shù)的特性,最右邊的節(jié)點(diǎn)就是被命中最多的函數(shù),這樣就能把程序中 CPU 使用率最高的函數(shù)找出來(lái)。

總結(jié)

由于 perf 的功能非常強(qiáng)大,所以本文也只介紹了 perf 其中一種功能:統(tǒng)計(jì)函數(shù)的 CPU 使用率。

在下一篇文章中,我們將會(huì)介紹 perf 的代碼實(shí)現(xiàn)。Linux 的創(chuàng)始人 Linus 曾經(jīng)說(shuō)過(guò):Read the f**king source code,要真正理解一個(gè)系統(tǒng),只能通過(guò)閱讀其源碼。






一文看懂 Linux 性能分析|perf原理(超詳細(xì)~)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
嘉荫县| 搜索| 县级市| 卢湾区| 江孜县| 安徽省| 甘洛县| 东宁县| 新巴尔虎左旗| 静乐县| 滦平县| 会昌县| 博湖县| 望奎县| 南华县| 隆德县| 琼中| 余江县| 曲水县| 商南县| 娄烦县| 葵青区| 黄浦区| 华宁县| 临沂市| 双牌县| 绍兴县| 柘城县| 吴川市| 县级市| 凉城县| 新巴尔虎左旗| 藁城市| 临高县| 上林县| 马山县| 广南县| 长兴县| 古浪县| 壶关县| 葫芦岛市|