k8s集群pod驅(qū)逐問題排查記錄
2023-09-25 20:11 作者:風(fēng)格星辰 | 我要投稿
今天進(jìn)行運(yùn)維支撐時(shí)遇到一個(gè)問題。
集群上某個(gè)pod被驅(qū)逐了多次,導(dǎo)致存在多個(gè)pod處于Evicted狀態(tài)。
使用kubectl get pod -n xxx -o wide|grep Evicted查看所有被驅(qū)逐的pod所在的宿主機(jī)
然后kubectl describe node 宿主機(jī)名稱,查看宿主機(jī)狀態(tài)。發(fā)現(xiàn)出現(xiàn)event,Memory Pressure內(nèi)存不足導(dǎo)致節(jié)點(diǎn)開始驅(qū)逐pod。但是看了下宿主機(jī)內(nèi)存使用情況,發(fā)現(xiàn)內(nèi)存使用率才70%左右,不應(yīng)該出現(xiàn)這種情況。但是pod確實(shí)被驅(qū)逐了。
登陸宿主機(jī),然后free -mh查看,發(fā)現(xiàn)內(nèi)存確實(shí)夠用。
完全找不到頭緒了。后面咨詢了下同事,發(fā)現(xiàn)其實(shí)是一個(gè)bug
通過kubectl top node 宿主機(jī)名稱,發(fā)現(xiàn)內(nèi)存使用率超過100%
通過登陸到宿主機(jī),臨時(shí)清理緩存
echo 2 > /proc/sys/vm/drop_caches
后續(xù)通過通過kubectl top node 宿主機(jī)名稱,查看內(nèi)存使用率下降了
后面就通過crontab寫了一個(gè)定時(shí)任務(wù),每天清理緩存。問題解決了
標(biāo)簽: