散文網(wǎng) » 科技 »自然 » Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】

Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】

2023-08-21 20:44 作者:AE_03-hua 0人讀過(guò) | 我要投稿

分享一篇有趣的NC comment，作者為來(lái)自科羅拉多大學(xué)博德分校的Jeanet Mante?& Chris J. Myers，后者同時(shí)為通訊作者。這位C. J. Myers是該校Genetic Logic Lab【https://geneticlogiclab.org/】的主理人，同時(shí)也是IEEE的會(huì)員；更有趣的是他曾獲得Chinese history中國(guó)歷史的學(xué)士學(xué)位【個(gè)人頁(yè)把這個(gè)也寫(xiě)成B.S. degree，估計(jì)是打錯(cuò)了】，可以說(shuō)是爾等斜杠青年的典范了（（（

本文中物種Somatogyrus aureus【你b專欄莫得斜體我真的yue】的中文翻譯參考了站內(nèi)up @NanikoQAQ 提供的建議，在此深表感謝。另外為保頁(yè)面整潔將不再保留references而只保留“角標(biāo)”，各位可前往原文自行查看相應(yīng)文獻(xiàn)。翻譯內(nèi)容僅供參考，如有讀者愿就不合理之處郢正一二，本人先行拜謝。

數(shù)據(jù)復(fù)用的相關(guān)議題已在合成生物學(xué)及更廣泛的科學(xué)界內(nèi)得到高度認(rèn)可。但出于對(duì)機(jī)器推理之強(qiáng)調(diào)及實(shí)際實(shí)施的缺乏，相關(guān)政策與規(guī)范仍未落地。于此我們討論已有的進(jìn)展，遺留的挑戰(zhàn)與潛在的解決方案。

十二年前，一封信被寫(xiě)就以強(qiáng)調(diào)出版物內(nèi)序列數(shù)據(jù)的不足所導(dǎo)致的合成生物學(xué)界復(fù)現(xiàn)與重復(fù)利用的缺失[1]。這反映出人們對(duì)于數(shù)據(jù)在科研推進(jìn)、創(chuàng)新及經(jīng)濟(jì)發(fā)展等方面之關(guān)鍵作用的認(rèn)知正不斷增強(qiáng)。這一認(rèn)知已導(dǎo)致對(duì)于數(shù)據(jù)科學(xué)及數(shù)據(jù)基建的投資不斷增加，也提高了人們對(duì)于有效的數(shù)據(jù)管理與共享實(shí)踐之必要性的認(rèn)知：數(shù)據(jù)必須可被查找（findable）、可被訪問(wèn)（accessible）、可被互動(dòng)（interoperable）、可被復(fù)用（reusable，縮寫(xiě)為FAIR）[2]，并且需被管理以達(dá)成以上目標(biāo)——然而，解決基因片段復(fù)用不足的問(wèn)題仍留有漫漫長(zhǎng)路亟待求索。

已有進(jìn)展

一直以來(lái)，大學(xué)、公司、期刊及資助機(jī)構(gòu)等不同社群中不斷提升的數(shù)據(jù)認(rèn)知都在推動(dòng)基因數(shù)據(jù)復(fù)用的進(jìn)展。伴隨著數(shù)據(jù)科學(xué)的普遍趨勢(shì)，這些社群正著手改善遺傳學(xué)數(shù)據(jù)的規(guī)范化與儲(chǔ)存。為達(dá)到這一目的，他們正執(zhí)行多樣的政策以求確?；驍?shù)據(jù)被系統(tǒng)地管理與共享。其中一個(gè)最顯著的范例便是聯(lián)合國(guó)教科文組織的《開(kāi)放科學(xué)建議書(shū)》，其對(duì)數(shù)據(jù)儲(chǔ)存、規(guī)范化及可訪問(wèn)性等開(kāi)放科學(xué)的實(shí)施細(xì)節(jié)制定了指導(dǎo)方針。另一示例是資助機(jī)構(gòu)為保證數(shù)據(jù)被正確儲(chǔ)存與管理而對(duì)數(shù)據(jù)管理方案提出的要求，例如美國(guó)國(guó)家科學(xué)基金會(huì)、疾控中心、國(guó)立衛(wèi)生研究院和英國(guó)生物技術(shù)與生物科學(xué)研究理事會(huì)。此外，一些期刊現(xiàn)在也對(duì)序列呈遞提出要求或提供建議，例如《Nature》和《Science》。一方面此類政策很好，因?yàn)樗鼈兒w了較大的范圍從而包含了基因的部分。另一方面，它的廣泛度導(dǎo)致了關(guān)于政策應(yīng)被如何實(shí)施及它們應(yīng)是激勵(lì)性質(zhì)的抑或帶有強(qiáng)制色彩的不確定性。

公眾認(rèn)知也促進(jìn)了社群規(guī)范的形成。合成生物學(xué)社群內(nèi)的標(biāo)準(zhǔn)包含了合成生物學(xué)開(kāi)放語(yǔ)言（SBOL）[3]，標(biāo)準(zhǔn)歐洲矢量架構(gòu)（SEVA）[4]及生物積木標(biāo)準(zhǔn)[5]。不同的數(shù)據(jù)標(biāo)準(zhǔn)服務(wù)于不同的用途。某些標(biāo)準(zhǔn)側(cè)重于數(shù)據(jù)的格式與結(jié)構(gòu)，另外一些則聚焦于可視化，還有一些專注于匯編。但所有的數(shù)據(jù)標(biāo)準(zhǔn)都服務(wù)于一項(xiàng)共通的目標(biāo)：促進(jìn)數(shù)據(jù)的復(fù)用。為數(shù)據(jù)標(biāo)準(zhǔn)的管理、分享和使用建立清晰而一致的框架有助于確保數(shù)據(jù)對(duì)于數(shù)量繁多的個(gè)人與組織是可訪問(wèn)且可使用的。通過(guò)協(xié)作，這些標(biāo)準(zhǔn)創(chuàng)建出一系列魯棒又靈活的基礎(chǔ)設(shè)施來(lái)支撐合成生物學(xué)的發(fā)展。

遺留挑戰(zhàn)

合成生物學(xué)領(lǐng)域的發(fā)展映射著數(shù)據(jù)科學(xué)的全面推移與前進(jìn)。這是由于合成生物學(xué)所面對(duì)的大量挑戰(zhàn)與議題與更廣泛的數(shù)據(jù)科學(xué)所需面臨的相類似。序列數(shù)據(jù)管理時(shí)下所面對(duì)包含可查找性、可訪問(wèn)性、可互動(dòng)性、可復(fù)用性等方面的若干議題。盡管若干政策及標(biāo)準(zhǔn)理論上可以解決這些議題，但許多政策都含糊不清因而時(shí)下無(wú)法解決針對(duì)數(shù)據(jù)的機(jī)器推理，或干脆未被充分執(zhí)行。

我們?cè)诖苏雇@樣的未來(lái)：我們將可以向數(shù)據(jù)庫(kù)問(wèn)出這樣的問(wèn)題：”堆囊菌亞目細(xì)菌中最強(qiáng)的啟動(dòng)子有哪些？“而數(shù)據(jù)庫(kù)遞交出一份可被基于例如對(duì)不需要的限制酶位點(diǎn)的排除或熱穩(wěn)定性等進(jìn)一步的標(biāo)準(zhǔn)進(jìn)行過(guò)濾的結(jié)果清單。另外，倘若獲得的結(jié)果有限，數(shù)據(jù)庫(kù)可以反饋其他的查詢建議，例如”未能從堆囊菌亞目細(xì)菌中尋得結(jié)果，您想在粘球菌目中進(jìn)行查詢嗎？“一旦一項(xiàng)結(jié)果被打開(kāi)，頁(yè)面內(nèi)就應(yīng)有足夠的信息來(lái)幫助確認(rèn)該原件能否勝任期望的應(yīng)用。在堆囊菌亞目細(xì)菌啟動(dòng)子的示例中，它或許會(huì)報(bào)告在不同環(huán)境條件下測(cè)得的相對(duì)啟動(dòng)子單位數(shù)量（RPUs）[6]并附錄對(duì)有關(guān)實(shí)驗(yàn)文獻(xiàn)的引用。盡管現(xiàn)下它有可能回答此類問(wèn)題，但這絕非易事——它所需的時(shí)間與精力阻礙人們前進(jìn)，浪費(fèi)科研經(jīng)費(fèi)。雖然看似難以置信，但這是一個(gè)可達(dá)成的目標(biāo)，因?yàn)槠渲性S多部分已經(jīng)就位。下文將討論仍待解決的阻礙。

可查找性

由于機(jī)器對(duì)于數(shù)據(jù)推理無(wú)能為力且集成化的序列數(shù)據(jù)庫(kù)尚且缺失，基因片段常常是難以定位的。盡管存在諸如GenBank[7]、SynBioHub[8]、JBEI-ICE[9]、iGEM BioBrick Registry[10]、Addgene[11]之類的數(shù)據(jù)庫(kù)，但能在數(shù)據(jù)庫(kù)上運(yùn)行的查詢?nèi)詾閿?shù)據(jù)庫(kù)接口、數(shù)據(jù)庫(kù)所存儲(chǔ)的元數(shù)據(jù)及被輸入數(shù)據(jù)庫(kù)的數(shù)據(jù)等因素所限制。一些期刊對(duì)于序列的提交有清晰的準(zhǔn)則，并為審稿人提供了待驗(yàn)證沉積序列的清單以進(jìn)行支持。其它期刊的政策更加隱蔽：審稿人未被要求進(jìn)行驗(yàn)證。因此，盡管對(duì)于序列數(shù)據(jù)的遞交再增加，但這絕非普遍存在。另外，元數(shù)據(jù)的領(lǐng)域因數(shù)據(jù)庫(kù)而異。例如，Addgene包含了細(xì)菌增殖的數(shù)據(jù)，而GenBank沒(méi)有。包含基因組最小信息標(biāo)準(zhǔn)（MIGS）[12]所要求的全部元數(shù)據(jù)的數(shù)據(jù)庫(kù)并不存在。這一問(wèn)題或許可以通過(guò)被良好索引的分布式數(shù)據(jù)存儲(chǔ)或被良好規(guī)劃的中心式數(shù)據(jù)庫(kù)來(lái)解決。

可訪問(wèn)性

目前的系統(tǒng)正為人與計(jì)算機(jī)無(wú)法獲取數(shù)據(jù)的現(xiàn)狀所困擾。之于”待請(qǐng)求數(shù)據(jù)“的通常做法往往遭遇作者回復(fù)的缺乏[13]。即便數(shù)據(jù)可供使用，也常不具備可供機(jī)器讀取的格式。譬如，[14]表明絕大多數(shù)可獲取的補(bǔ)充序列都具備PDF格式。這使得即便可能，機(jī)器提取序列并對(duì)其執(zhí)行注釋或其他分析也是很艱難的。為解決此類問(wèn)題，序列數(shù)據(jù)必須不僅可供人獲取，還可使機(jī)器通過(guò)兼容機(jī)器推理標(biāo)準(zhǔn)的中心式數(shù)據(jù)庫(kù)來(lái)使用（也即機(jī)器可使用的格式）。部分元數(shù)據(jù)已可被機(jī)器獲取，但這并非全部。例如Genbank在基態(tài)物種的前提下提供了分類學(xué)ID。然而，Addgene的物種未被附注。另外，所有數(shù)據(jù)庫(kù)都能夠增加的使用，例如ORCID、基因本體論[15]、序列本體論[16]和DOI。收集更廣泛的元數(shù)據(jù)可以擴(kuò)大用戶搜尋與揀選的范圍數(shù)量。本體論的使用使得機(jī)器歸因（例如推薦子組或超組以縮小或擴(kuò)大搜索范圍）成為可能。最后，使用獨(dú)特標(biāo)識(shí)符可容許不同數(shù)據(jù)庫(kù)間的整合（例如查詢同一作者的期刊文章，或?qū)niprot[17]與Genbank的記錄連接）[18]。另一方面，以ChatGPT為代表的大語(yǔ)言模型（LLM）的崛起或?qū)⒃黾訖C(jī)器可訪問(wèn)的數(shù)據(jù)類型。然而所要求的信息仍需存在，無(wú)論格式為何。此外，大語(yǔ)言模型們作為機(jī)器學(xué)習(xí)的一員尚未可被解釋，因此模型必須經(jīng)過(guò)嚴(yán)謹(jǐn)?shù)脑u(píng)估后方可作為研究進(jìn)程的一部分得到信任。為此，一項(xiàng)TruthfulQA基準(zhǔn)的生物學(xué)同位體是很有必要的。

可互動(dòng)性

與基因片段相關(guān)聯(lián)元數(shù)據(jù)的不足阻礙了它們與其他部分的整合。譬如序列通常不包含有關(guān)于限制性酶切位點(diǎn)的元數(shù)據(jù)。在僅有例如引物或質(zhì)粒參照的部分序列信息的情況下這尤其令人困擾。然而，即便有時(shí)序列可被利用，運(yùn)行單質(zhì)粒注釋所需的時(shí)間對(duì)研究人員來(lái)說(shuō)仍是不必要的負(fù)擔(dān)。如若在提交時(shí)進(jìn)行限制性酶切位點(diǎn)修飾，研究者們將得以輕松地篩選出帶有不被需要限制性位點(diǎn)的質(zhì)?；蛘邩?gòu)建體以完成部分初步搜索。確保全部序列可用是良好的開(kāi)始，但我們建議涵蓋一系列可互動(dòng)性課題的元數(shù)據(jù)收集也是被需要的。所需元數(shù)據(jù)的清單可基于一項(xiàng)機(jī)器可訪問(wèn)的DNA構(gòu)建協(xié)議描述用框架[19]，QUEEN（生成可五等分？[譯者注：此翻譯僅供參考，譯者本人都覺(jué)得離譜]和可被高效編輯的核苷酸序列資源的框架）。

可復(fù)用性

允許序列在新情景中被復(fù)用的信息通常并不充分。如文獻(xiàn)[20]所述，我們有最低信息標(biāo)準(zhǔn)；然而，它們的使用仍受限制，實(shí)施較少。此外，當(dāng)下的遺傳最低信息標(biāo)準(zhǔn)在合成生物學(xué)的背景下表現(xiàn)如何尚未明確。關(guān)于預(yù)測(cè)新有機(jī)體或不同環(huán)境背景中序列功能所需信息的數(shù)據(jù)仍有限。定義何種信息為此類預(yù)測(cè)所需是必要的。一旦此事項(xiàng)被完成，該標(biāo)準(zhǔn)就應(yīng)被以與前文所述有關(guān)可查找性、可訪問(wèn)性、可互動(dòng)性相兼容的方式被實(shí)施。并非所有被最低信息標(biāo)準(zhǔn)要求的信息都需被存儲(chǔ)在單一數(shù)據(jù)庫(kù)中；然而，它必須被以可對(duì)完整數(shù)據(jù)集進(jìn)行查閱的方式連接。這不僅能提高序列數(shù)據(jù)的可查找-訪問(wèn)-互動(dòng)-復(fù)用性，還節(jié)省了在重復(fù)表征實(shí)驗(yàn)和生物信息學(xué)分析上所花費(fèi)的時(shí)間與資源，使得合成構(gòu)建體的設(shè)計(jì)與構(gòu)造更加輕松，更加劃算。

總結(jié)

我們?cè)噲D以事后的方式對(duì)一投稿至ACS Synthetic Biology的文章實(shí)施大量經(jīng)建議的方案[14]。然而，出于機(jī)器可讀序列的缺失、自然語(yǔ)言處理的困難及語(yǔ)言的固有二義性，這被證明是極具挑戰(zhàn)性的。S. aureus可代指美麗硬仆骨舌魚(yú)（Scleropages aureus）、金色千里光（Senecio aureus）、輝亭鳥(niǎo)（Sericulus aureus）、金卵石螺（Somatogyrus aureus）及金黃色葡萄球菌（Staphylococcus aureus）等若干不同物種的事實(shí)即為此種二義性的呈現(xiàn)。有時(shí)我們可以從內(nèi)容中獲知其指代何種生物，但這并非常態(tài)。反之，我們推薦提示作者以機(jī)器可訪問(wèn)的格式進(jìn)行所需序列數(shù)據(jù)的提交，并附加包含背景關(guān)鍵詞的特定標(biāo)簽的集成綜合處理[14][21]。這一綜合處理進(jìn)程可以是半自動(dòng)化的，也可被整合入論文投稿的工作流中。這將會(huì)使得作者的額外工作最小化。使序列數(shù)據(jù)的綜合處理成為投稿和審稿流程的一部分將有助于數(shù)據(jù)管理政策的執(zhí)行與序列數(shù)據(jù)可查找-訪問(wèn)-互動(dòng)-復(fù)用性的提高。這將對(duì)整個(gè)研究社群產(chǎn)生正面的影響，并使得數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)變得更加輕松，更加高效。

標(biāo)簽：生物生信數(shù)據(jù)歸檔標(biāo)準(zhǔn)天坑 Nature 論文翻譯 Nat Commun 生物信息學(xué)合成生物學(xué)

Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】

Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】

本文作者的其他文章

Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Nat Commun | 推動(dòng)基因片段的二次利用：已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】的評(píng)論 (共條)