最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

明星不是夢#利用Python進行網(wǎng)站日志分析

2021-08-12 10:58 作者:Vecloud_  | 我要投稿


網(wǎng)站的訪問日志是一個非常重要的文件,通過分析訪問日志,能夠挖掘出很多有價值的信息。本文介紹如何利用Python對一個真實網(wǎng)站的訪問日志進行分析,文中將綜合運用Python文件操作、字符串處理、列表、集合、字典等相關(guān)知識點。本文所用的訪問日志access_log來自我個人的云服務(wù)器,大家可以從文末的附件中下載。?
1.提取指定日期的日志下面是一條典型的網(wǎng)站訪問日志,客戶端訪問網(wǎng)站中的每個資源都會產(chǎn)生一條日志。?
193.112.9.107 - - [25/Jan/2020:06:32:58 +0800] "GET /robots.txt HTTP/1.1" 404 208 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"?
每條日志都由空格分隔為九部分,其中比較重要的是:?
第1部分,193.112.9.107?,客戶端的IP地址。第4部分,[25/Jan/2020:06:32:58 +0800],用戶訪問請求發(fā)生的時間。第5部分,GET /robots.txt HTTP/1.1,客戶端發(fā)來的HTTP請求報文首部的第一行信息。這部分采用“請求方法 請求資源 請求協(xié)議”的格式表示,是日志中最重要的部分。“GET /robots.txt HTTP/1.1”表示客戶端以GET方法請求訪問服務(wù)器的/robots.txt文件,所使用的HTTP協(xié)議版本為HTTP/1.1。第6部分,?“404”,HTTP響應(yīng)狀態(tài)碼。狀態(tài)碼用于表示用戶的請求是否成功,如果該值為200,則表示用戶的訪問成功,否則就可能存在問題。一般來說,以2開頭的狀態(tài)碼均可以表示用戶的訪問成功,以3開頭的狀態(tài)碼表示用戶的請求被頁面重新定向到了其它位置,以4開頭的狀態(tài)碼表示客戶端遇到了錯誤,以5開頭的狀態(tài)碼表示服務(wù)器遇到了錯誤。第7部分,“208”,響應(yīng)報文的大小,單位字節(jié),這個數(shù)值不包括響應(yīng)報文的首部。把日志記錄中的這些值加起來就可以得知服務(wù)器在一定時間內(nèi)發(fā)送了多少數(shù)據(jù)。第9部分,?"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0",表示客戶端發(fā)來的HTTP請求報文中首部“User-Agent”的值,即發(fā)出請求的應(yīng)用程序,通常都是瀏覽器。一個日志文件中會包含很多天的日志記錄,而我們通常都是針對某一天進行日志分析,所以首先需要從日志文件中把我們要分析的那一天的日志提取出來。?
比如要提取1月25日產(chǎn)生的日志,可以執(zhí)行下面的代碼:?
>>> with open('access_log','r') as f1, open('access_log-0125','w') as f2:... ????for line in f1:... ????????????if '25/Jan/2020' in line:... ????????????????????f2.write(line)在這段代碼中,以r讀取模式打開日志文件access_log,作為文件對象f1。以w寫入模式創(chuàng)建文件access_log-0125,作為文件對象f2。?
然后遍歷f1中的每一行,并判斷是否包含關(guān)鍵字“25/Jan/2020”,如果有的話,就將這行寫入到f2中。?
這樣就提取出了1月25日的所有日志記錄,并保存到了文件access_log-0125中。下面我們就針對文件access_log-0125進行分析。?
2.統(tǒng)計PV和UVPV是指PageView,網(wǎng)站的訪問請求數(shù)。用戶每次對網(wǎng)站中的一個頁面的請求或訪問均被記錄為1個PV,例如某個用戶訪問了網(wǎng)站中的4個頁面,那么PV就+4。而且用戶對同一頁面的多次訪問,PV也是累計的。?
UV是指UniqueView,網(wǎng)站的獨立訪客數(shù),訪問網(wǎng)站的一個IP被視為一個訪客,在同一天內(nèi)相同的IP只被計算一次。?
因而,我們只要取出每條日志中的IP并統(tǒng)計數(shù)量,那么就可以得到PV,將IP去重,就可以得到UV。?
執(zhí)行下面的代碼,將每條日志的IP提取出來,并存放到列表ips中。?
>>> ips = []>>> with open('access_log-0125','r') as f:... ????for line in f:... ????????????ips.append(line.split()[0])在這段代碼中,首先定義了一個空列表ips,然后打開文件access_log-0125并對其進行遍歷,每遍歷一行,就將該行以空格作為分隔符分割成一個列表,并取出列表中的第一個元素(也就是IP地址),再追加到列表ips中。?
下面我們只要統(tǒng)計列表ips的長度就是PV,將列表元素去重之后,再統(tǒng)計長度就是UV。去重這里采用了set()函數(shù),將列表轉(zhuǎn)換為集合,利用Python集合本身的特性,簡單高效的完成去重操作。?
>>> pv = len(ips)>>> uv = len(set(ips))>>> print(pv,uv)1011 483.統(tǒng)計網(wǎng)站出錯頁面比例網(wǎng)站的出錯比例是很重要的一份數(shù)據(jù),直接關(guān)系到網(wǎng)站的用戶體驗。要統(tǒng)計用戶訪問出錯的比例,可以通過統(tǒng)計每個請求的HTTP狀態(tài)碼得到,狀態(tài)碼為2xx或3xx的,視為訪問正確,狀態(tài)碼為4xx或5xx,則視為訪問出錯。?
首先可以提取所有頁面的狀態(tài)碼,并保存到列表中。?
>>> codes = []>>> with open('access_log-0125','r') as f:... ????for line in f:... ????????????codes.append(line.split()[8])再統(tǒng)計出每種狀態(tài)碼的出現(xiàn)次數(shù),保存到字典中:?
>>> ret = {}>>> for i in codes:... ????if i not in ret:... ????????????ret[i] = codes.count(i)... >>> >>> ret{'200': 192, '404': 796, '"-"': 4, '400': 13, '403': 3, '401': 2, '405': 1}上面這段代碼用到了字典,這里是對存放狀態(tài)碼的列表codes進行遍歷,從中取出狀態(tài)碼作為字典的鍵,并統(tǒng)計這種狀態(tài)碼在列表codes中出現(xiàn)的次數(shù),作為字典的值。?
如果要統(tǒng)計404頁面的比例,可以執(zhí)行下面的代碼:?
>>> ret['404']/sum(ret.values())0.7873392680514342在這段代碼中,ret['404']表示從字典ret中取出鍵為‘404’的元素的值,也就是404狀態(tài)碼的個數(shù)。ret.values()表示取出字典中所有元素的值,再用sum()函數(shù)求和,得到所有狀態(tài)碼的總數(shù)量。兩者的比值也就是錯誤頁面的比例了。?
從結(jié)果中可以看出,我這個網(wǎng)站的頁面出錯比例特別高,竟然達到了78.7%,如果是一個正常網(wǎng)站,這肯定是有問題的。但我這并不是一個公開網(wǎng)站,也沒有什么有價值的頁面,因而大部分訪問日志其實都是由一些漏洞掃描軟件產(chǎn)生的,這也提醒我們,隨時都有人在對我們線上的網(wǎng)站進行著各種掃描測試。?
4.統(tǒng)計網(wǎng)站熱門資源下面我們繼續(xù)統(tǒng)計出每個頁面的用戶訪問量,并進行排序。?
首先仍然是遍歷日志文件,取出用戶訪問的所有頁面,并保存到列表中:?
>>> webs = []>>> with open('access_log-0125','r') as f:... ????for line in f:... ????????????webs.append(line.split()[6])接著再統(tǒng)計出每個頁面的訪問次數(shù),并存放到字典中:?
>>> counts = {}>>> for i in webs:... ????if i not in counts:... ????????????counts[i] = webs.count(i)...按頁面的訪問量降序排序:?
>>> sorted(counts.items(),key=lambda x:x[1],reverse=True)[('/', 175), ('/robots.txt', 25), ('/phpinfo.php', 6), ('/Admin13790d6a/Login.php', 4), ……為了更好地理解上面這個sorted()函數(shù)的用法,下面舉例說明。比如我們定義一個名叫services的字典,如果直接用sorted()函數(shù)對這個字典排序,默認是按照鍵進行升序排序。為了顯示字典中的所有內(nèi)容,可以使用items()方法,此時,字典中的每個鍵值對會被組合成一個元組,并且默認是按照元組中的第一個元素,也就是字典的鍵進行排序的。?
>>> services = {'http':80,'ftp':21,'https':443,'ssh':22}>>> sorted(services)['ftp', 'http', 'https', 'ssh']>>> sorted(services.items())[('ftp', 21), ('http', 80), ('https', 443), ('ssh', 22)]如果希望按照字典中的值進行排序,也就是要按照元組中的第二個元素排序,可以用key參數(shù)指定一個lambda表達式,以每個元組中的第二個元素作為關(guān)鍵字。?
>>> sorted(services.items(),key=lambda x:x[1])[('ftp', 21), ('ssh', 22), ('http', 80), ('https', 443)]所以這也就解釋了之前那個sorted()函數(shù)的含義。至于lambda表達式,其實就是一個根據(jù)需要可以隨時定義使用的小函數(shù),“l(fā)ambda x:x[1]”,冒號左側(cè)的x是函數(shù)要處理的參數(shù),冒號右側(cè)的表達式是函數(shù)要執(zhí)行的操作,最后再將這個表達式的結(jié)果返回。?

了解更多網(wǎng)絡(luò)知識關(guān)注:http://www.vecloud.com/

明星不是夢#利用Python進行網(wǎng)站日志分析的評論 (共 條)

分享到微博請遵守國家法律
孝昌县| 华阴市| 宣威市| 宁城县| 新安县| 临安市| 辽宁省| 闸北区| 威宁| 洪江市| 于都县| 沙河市| 宁城县| 江西省| 木里| 莱芜市| 阳城县| 东乡| 佛山市| 双鸭山市| 武威市| 丽水市| 琼结县| 泰州市| 资中县| 襄汾县| 安塞县| 开原市| 嘉义县| 杨浦区| 大连市| 乌兰察布市| 灵寿县| 成都市| 华亭县| 天镇县| 四会市| 凤翔县| 搜索| 卢氏县| 富民县|