最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

邁高科技||matminer的數(shù)據(jù)檢索功能和數(shù)據(jù)特征化功能介紹

2022-08-19 16:18 作者:邁高科技  | 我要投稿

簡(jiǎn)介

matminer是一款基于材料信息學(xué)的交互工具。它包含很多數(shù)據(jù)集和針對(duì)材料數(shù)據(jù)的處理方式。今天主要介紹數(shù)據(jù)集的獲取和基于數(shù)據(jù)集的特征生成。


Matminer是基于python開(kāi)發(fā)的一款用于材料科學(xué)機(jī)器學(xué)習(xí)的開(kāi)源軟件。它是一款多功能的開(kāi)源軟件,比如可以從Materials project等數(shù)據(jù)庫(kù)自動(dòng)獲取相應(yīng)材料的數(shù)據(jù),并將這些材料數(shù)據(jù)轉(zhuǎn)化為可用于機(jī)器學(xué)習(xí)模型訓(xùn)練的可輸入特征進(jìn)行探索性分析。但是Matminer本身并不具備常用的機(jī)器學(xué)習(xí)算法,通常情況下需要配合MatCloud+平臺(tái)或者sklearn等機(jī)器學(xué)習(xí)相關(guān)的開(kāi)源工具使用。

圖1 matminer開(kāi)源工具的功能示意圖[1]

今天,我們來(lái)學(xué)習(xí)它的數(shù)據(jù)獲取功能和特征生成功能吧!

1 數(shù)據(jù)檢索功能

機(jī)器學(xué)習(xí)順利進(jìn)行的首要條件是數(shù)據(jù)集的獲取。在材料科學(xué)領(lǐng)域中已建立起許多個(gè)材料數(shù)據(jù)庫(kù),但是由于不同材料數(shù)據(jù)庫(kù)的數(shù)據(jù)獲取方式不同,因此數(shù)據(jù)庫(kù)的使用也變得復(fù)雜。Matminer的數(shù)據(jù)挖掘模塊通過(guò)提供通用的數(shù)據(jù)庫(kù)數(shù)據(jù)交互方式,通過(guò)數(shù)據(jù)集的獲取、查詢數(shù)據(jù)集的詳細(xì)信息、查看數(shù)據(jù)集的來(lái)源等。

matminer支持可以從Citrination 、Materials Project (MP) 、Materials Data Facility (MDF) 、Materials Platform for Data Science(MPDS)四個(gè)數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)。

下面讓我們來(lái)認(rèn)識(shí)matminer的數(shù)據(jù)獲取功能吧!


圖2 matminer中數(shù)據(jù)獲取功能模塊代碼示例

圖2代碼示例的意思是從matminer.datasets.dataset_retrieval模塊導(dǎo)入10個(gè)數(shù)據(jù)探索的方法,按照順序分別是獲取所有數(shù)據(jù)集的詳細(xì)信息(get_all_dataset_info)、可獲得的數(shù)據(jù)集(get_available_datasets)、數(shù)據(jù)集的貢獻(xiàn)方(get_dataset_attribute)、數(shù)據(jù)集的引用(get_dataset_citations)、數(shù)據(jù)集中列名稱的描述(get_dataset_column_description)、數(shù)據(jù)集中列名稱(get_dataset_columns)、數(shù)據(jù)集的描述(get_dataset_description)、數(shù)據(jù)集的數(shù)據(jù)條目信息(get_dataset_num_entries)、數(shù)據(jù)集的參考文獻(xiàn)信息(get_dataset_reference)、加載數(shù)據(jù)集(load_dataset)。

以下是上述部分功能的簡(jiǎn)要介紹:

數(shù)據(jù)獲取功能:代碼輸出的是matminer中數(shù)據(jù)集的名稱,以列表的形式輸出,一共42份數(shù)據(jù)集。

圖3 get_available_datasets 數(shù)據(jù)集獲取功能代碼運(yùn)行示意圖


默認(rèn)情況下打印的是數(shù)據(jù)集的名稱和簡(jiǎn)介

圖4 get_available_datasets 數(shù)據(jù)獲取功能中,輸出數(shù)據(jù)集名稱和詳細(xì)介紹的代碼示例

使用get_all_dataset_info功能來(lái)查看某一數(shù)據(jù)集的詳細(xì)信息,比如我們查看了數(shù)據(jù)集名稱為’boltztrap_mp’的詳細(xì)信息,打印出了數(shù)據(jù)集的來(lái)源,包含的數(shù)據(jù)條目、數(shù)據(jù)產(chǎn)生的條件和來(lái)源以及相關(guān)的文獻(xiàn)等信息。

圖5 get_all_dataset_info功能代碼示例

使用get_dataset_columns功能查看數(shù)據(jù)集的列名稱(體現(xiàn)的是這個(gè)數(shù)據(jù)集中包含的材料數(shù)據(jù)的類型),使用get_dataset_num_entried功能查看數(shù)據(jù)集的數(shù)據(jù)條目。

圖6 get_dataset_columns和get_dataset_num_entried代碼示例

使用load_dataset功能加載數(shù)據(jù)集并進(jìn)行查看,以數(shù)據(jù)集’boltztrap_mp’為例子,其中data.shape是查看數(shù)據(jù)集的條目,可以看到這個(gè)數(shù)據(jù)集是8924行和9列, data.head()是查看這個(gè)數(shù)據(jù)集的前五行詳細(xì)內(nèi)容。

圖7 load_dataset功能代碼示例


圖7中通過(guò)代碼輸出的信息可以看出,這個(gè)數(shù)據(jù)集的維度是8924*9,即有8924條材料數(shù)據(jù),9列基本信息(分別為mpid:Materials Project identifier;pf_n:n-type thermoelectric power factor in uW/cm2;pf_p:p-type power factor in uW/cm2;s_n:n-type Seebeck coefficient in micro Volts per Kelvin;s_p:p-type Seebeck coefficient in micro Volts per Kelvin;formula:Chemical formula of the entry;m_n:n-type/conduction band effective mass;m_p:p-type/valence band effective mass;structure:pymatgen Structure object describing the crystal structure of the material;)

2 數(shù)據(jù)特征化功能

使用matminer的featurizer模塊,將已經(jīng)獲得的數(shù)據(jù)集進(jìn)行數(shù)值特征化,即使用已獲取數(shù)據(jù)集中的化學(xué)式,構(gòu)建相應(yīng)的特征,用于機(jī)器學(xué)習(xí)的輸入。首先,使用matminer.featurizers.conversions模塊中的StrTocompositon功能將數(shù)據(jù)集中不同的化學(xué)式轉(zhuǎn)化為標(biāo)準(zhǔn)的composition格式,即提取化學(xué)式中的元素組成信息。

圖8 StrTocompositon功能代碼示例

其次,使用matminer.featurizers.conversions模塊中的ElementProperty功能,這個(gè)功能包含了五種特征屬性模塊,分別是magpie、deml、matminer、matscholar、megnet。這里以magpie為例,進(jìn)行特征的生成。

圖9 ElementProperty功能代碼示例

查看此時(shí)的數(shù)據(jù)維度是8924*142,也就是magpie模塊生成了133個(gè)與元素相關(guān)的特征。
查看一下magpie模塊的源碼,可以看到feature來(lái)源于“原子質(zhì)量、周期、數(shù)、族數(shù)等”,計(jì)算方式為“最大值、最小值、范圍、平均值、平均偏差”等方式。

圖 10 magpie中元素信息與計(jì)算方式的代碼示例


總結(jié)

本期內(nèi)容介紹了開(kāi)源材料信息學(xué)matminer的數(shù)據(jù)獲取功能和特征化功能。由于機(jī)器學(xué)習(xí)的第一步就是收集和整理高質(zhì)量數(shù)據(jù),但是Matminer有一定的局限性:
(1)matminer軟件需要在python環(huán)境下安裝和使用,需要使用者必備一定的python代碼編程知識(shí),了解基本的編程語(yǔ)法才可以正常使用

(2)本身并不具備機(jī)器學(xué)習(xí)算法,只可以進(jìn)行常規(guī)材料數(shù)據(jù)集的獲取及數(shù)據(jù)預(yù)處理工作

(3)機(jī)器學(xué)習(xí)模型的建立也需要配合sklearn等機(jī)器學(xué)習(xí)開(kāi)源工具使用,而sklearn等機(jī)器學(xué)習(xí)軟件也需要進(jìn)行安裝和具備相應(yīng)的python編程基礎(chǔ)才可順利使用

相比之下,MatCloud+平臺(tái)的人工智能模塊功能更加齊全:

(1)對(duì)于初學(xué)者來(lái)說(shuō),入門極快,無(wú)需前期了解和學(xué)習(xí)大量的python代碼知識(shí)

(2)不需要額外安裝軟件和部署環(huán)境,界面簡(jiǎn)潔易操作

(3)操作使用瀏覽器在線即可進(jìn)行數(shù)據(jù)處理和機(jī)器學(xué)習(xí)模型的建立及結(jié)果的分析

(4)提供在線計(jì)算資源,對(duì)于使用者來(lái)說(shuō)不需要額外配置其他高性能的計(jì)算軟硬件

因此,我們介紹MatCloud+平臺(tái)這個(gè)可以直接將獲取的數(shù)據(jù)用于機(jī)器學(xué)習(xí)的數(shù)據(jù)獲取方法,MatCloud+平臺(tái)是我國(guó)首個(gè)正式上線的材料基因組高通量材料設(shè)計(jì)平臺(tái)。

所有計(jì)算的物性數(shù)據(jù)均可以直接導(dǎo)入到平臺(tái)的物性數(shù)據(jù)庫(kù),選取所需要的物性數(shù)據(jù)導(dǎo)出到AI數(shù)據(jù)庫(kù)作為機(jī)器學(xué)習(xí)的模型訓(xùn)練數(shù)據(jù),省去了科研工作中對(duì)大批量數(shù)據(jù)整合的時(shí)間。減少了對(duì)數(shù)據(jù)整理不及時(shí)、不完整和難追溯等問(wèn)題?;蛘吒鶕?jù)自己的研究體系的所需數(shù)據(jù)直接導(dǎo)入到機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)AI訓(xùn)練集庫(kù)中作為機(jī)器學(xué)習(xí)的輸入!



邁高科技||matminer的數(shù)據(jù)檢索功能和數(shù)據(jù)特征化功能介紹的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
晋城| 霍山县| 闸北区| 兴国县| 仁布县| 新和县| 利津县| 噶尔县| 葫芦岛市| 宜阳县| 泰来县| 清水河县| 拜城县| 定远县| 秦皇岛市| 舒兰市| 龙井市| 滨州市| 封开县| 汉源县| 三穗县| 谢通门县| 张掖市| 洱源县| 鲁甸县| 宜宾市| 什邡市| 盐池县| 武宣县| 都兰县| 新宾| 贞丰县| 汝南县| 永嘉县| 肥乡县| 芒康县| 新蔡县| 嘉义市| 汤阴县| 新龙县| 镇江市|