最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

pandas.DataFrame.sample隨機(jī)抽樣-四兩撥千斤

2021-03-20 09:51 作者:python風(fēng)控模型  | 我要投稿

在大數(shù)據(jù)時代,我們建模數(shù)據(jù)量可能達(dá)到千萬級甚至TB。大數(shù)據(jù)在給投資者介紹時很必要,容易得到融資。但對于數(shù)據(jù)科學(xué)家來說,有時候我們只需要數(shù)據(jù)集中的一部分,并不需要全部的數(shù)據(jù)。這個時候我們就要對數(shù)據(jù)集進(jìn)行隨機(jī)的抽樣。如果用全量數(shù)據(jù)建?;驍?shù)據(jù)分析,成本太高,需要高性能服務(wù)器存儲數(shù)據(jù)。這對中小公司來說不現(xiàn)實。

最經(jīng)典案例是二戰(zhàn)中德軍坦克問題。在第二次世界大戰(zhàn)期間,西方盟國不懈地努力確定德國的生產(chǎn)規(guī)模,并以兩種主要方式進(jìn)行處理:常規(guī)情報收集和統(tǒng)計估計。

英國人用統(tǒng)計學(xué)方法估計德國坦克數(shù)量和德國真實坦克數(shù)量非常接近,遠(yuǎn)比情報部門數(shù)據(jù)準(zhǔn)確。

python的pandas中自帶有抽樣的方法。這是相關(guān)官網(wǎng)文檔介紹:

pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org

輸入?yún)?shù)說明

歡迎各位學(xué)習(xí)更多數(shù)據(jù)分析知識(博主錄制)



pandas.DataFrame.sample隨機(jī)抽樣-四兩撥千斤的評論 (共 條)

分享到微博請遵守國家法律
额尔古纳市| 白城市| 吉首市| 奇台县| 永城市| 洪江市| 邵阳县| 祁阳县| 军事| 大荔县| 天祝| 石城县| 太和县| 沙雅县| 桐庐县| 扶风县| 温州市| 黄平县| 娄底市| 洛川县| 迭部县| 潼关县| 奉节县| 邵阳县| 定边县| 孝感市| 阿尔山市| 琼海市| 响水县| 高唐县| 康平县| 巴马| 宜章县| 东丽区| 嘉禾县| 泾阳县| 永靖县| 休宁县| 海淀区| 金秀| 通城县|