【第十一屆泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽】A題:新冠疫情防控(完整代碼)--第一部分
?接下來(lái)會(huì)根據(jù)各個(gè)表的變量對(duì)問(wèn)題進(jìn)行分析和建模
里面最重要的就是如何確定密接者和次密接者
密接者為距離陽(yáng)性人員0-800米和在同一場(chǎng)所,次密接者為800-1400米間和不同場(chǎng)所間
我的思路是根據(jù)各個(gè)人員的坐標(biāo)和場(chǎng)所坐標(biāo),所對(duì)周?chē)巳哼M(jìn)行輻射的進(jìn)行確定,并且受輻射時(shí)長(zhǎng)影響。
換句話(huà)說(shuō),一個(gè)陽(yáng)性人員在以他為半徑內(nèi)對(duì)一定距離的人產(chǎn)生了影響,這一定距離的人會(huì)對(duì)他所在地的附近人群產(chǎn)生一些
其次根據(jù)核酸檢驗(yàn)結(jié)果對(duì)密接者和次密接者是否感染進(jìn)行有效篩選-考慮時(shí)間前后
完整代碼鏈接:
第一部分-數(shù)據(jù)處理和探討

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
import warnings
warnings.filterwarnings('ignore')import chardet
%matplotlib inline
plt.rcParams['font.sans-serif'] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
#由于文件的格式問(wèn)題需要處理一下#附件的編碼有問(wèn)題,封裝一個(gè)獲取文件編碼的函數(shù)def detect_encoding(file_path): ? ?with open(file_path,'rb') as f:
? ? ? ?data = f.read()
? ? ? ?result = chardet.detect(data) ? ? ? ?return result['encoding']# 讀取人員信息表df_people = pd.read_csv('F:/python-jupyter_lianxi/3月項(xiàng)目/附件2.csv',encoding = detect_encoding('F:/python-jupyter_lianxi/3月項(xiàng)目/附件2.csv'))# 讀取場(chǎng)所信息表df_place = pd.read_csv('F:/python-jupyter_lianxi/3月項(xiàng)目/附件3.csv',encoding = detect_encoding('F:/python-jupyter_lianxi/3月項(xiàng)目/附件3.csv'))# 個(gè)人自查上報(bào)信息表df_self_check = pd.read_csv('F:/python-jupyter_lianxi/3月項(xiàng)目/附件4.csv',encoding = detect_encoding('F:/python-jupyter_lianxi/3月項(xiàng)目/附件4.csv'))# 場(chǎng)所碼掃碼信息表df_scan = pd.read_csv('F:/python-jupyter_lianxi/3月項(xiàng)目/附件5.csv',encoding = detect_encoding('F:/python-jupyter_lianxi/3月項(xiàng)目/附件5.csv'))# 核算采樣檢測(cè)信息表df_nucleic_acid = pd.read_csv('F:/python-jupyter_lianxi/3月項(xiàng)目/附件6.csv',encoding = detect_encoding('F:/python-jupyter_lianxi/3月項(xiàng)目/附件6.csv'))#疫苗接種信息表
附件2-人員信息表處理

?

?

2??附件3場(chǎng)所信息表處理


?

?3??附件4個(gè)人自查表-處理



?附件5場(chǎng)所碼掃碼信息表 處理

?體溫的恒定可以用來(lái)畫(huà)圖
5??核酸采樣信息表 處理


7??表格合并
為了方便繪圖和建模,將能合并的表進(jìn)行合并
人員信息表-個(gè)人自查表-場(chǎng)所碼掃碼信息表-核酸采樣檢測(cè)表-疫苗接種信息表
按人員信息表的user_id進(jìn)行合并
由于存在多列數(shù)據(jù)不同和多列相同,所以用merge一起合并會(huì)出現(xiàn)問(wèn)題,所以一步一步合并,并刪除重復(fù),不適合的數(shù)據(jù)



?保留處理后的文件

#加載創(chuàng)建的EDA助手函數(shù)以進(jìn)行一些高級(jí)分析#看需要來(lái)調(diào)用class EDA():
? ?df = pd.DataFrame() ? ?
? ?def __init__(self, df):
? ? ? ?self.df = df ? ? ? ?
? ?def missing_values(self):
? ? ? ?***** ? ?
? ?def duplicate_values(self):
? ? ? ?***** ? ? ? ?
? ?def duplicate_indices(self):
? ? ? ?***** ? ? ? ? ? ?
? ?def summary(self):
? ? ? ?**** ? ?
? ?def pandas_profiling(self): ? ? ? ?import pandas_profiling
? ? ? ?******
? ?
? ?def histogram_KDE(self):
? ? ? ?***** ? ? ? ?
? ?def outliers(self, col):
? ? ? ?****** ? ? ? ?
? ?def missing_timeseries_points(self, freq='D'):
? ? ? ?***** ? ?def corr_heatmap(df):
? ? ? ?****** ? ?def plot_time_series_seasonal_decomp(self, type='add'):
? ? ? ?***** ?
? ?def time_series_ADF(self): ? ? ? ? ? ?
? ? ? ?from statsmodels.tsa.stattools import adfuller as ADF
? ? ? ?series = data['KwH']
? ? ? ?result = ADF(series) ? ? ? ?print('ADF Statistic: %f4.2' % result[0]) ? ? ? ?print('P-value %f4.2' % result[1])

?#由于數(shù)據(jù)還未公布,所以需要很多數(shù)據(jù)處理功能沒(méi)發(fā)調(diào)用,等數(shù)據(jù)公布再進(jìn)行
8??探索性可視化
-------只展示部分


??

?

.................
................
.................
...............
?
??

?#不同核酸檢測(cè)陰陽(yáng)性人員上報(bào)地點(diǎn)分布
#不同核酸檢測(cè)結(jié)果的陰陽(yáng)性人員上報(bào)地點(diǎn)分布

