Nat Commun | 推動(dòng)基因片段的二次利用:已有進(jìn)展與遺留挑戰(zhàn)【個(gè)人翻譯】
分享一篇有趣的NC comment,作者為來(lái)自科羅拉多大學(xué)博德分校的Jeanet Mante?& Chris J. Myers,后者同時(shí)為通訊作者。這位C. J. Myers是該校Genetic Logic Lab【https://geneticlogiclab.org/】的主理人,同時(shí)也是IEEE的會(huì)員;更有趣的是他曾獲得Chinese history中國(guó)歷史的學(xué)士學(xué)位【個(gè)人頁(yè)把這個(gè)也寫(xiě)成B.S. degree,估計(jì)是打錯(cuò)了】,可以說(shuō)是爾等斜杠青年的典范了(((
本文中物種Somatogyrus aureus【你b專欄莫得斜體我真的yue】的中文翻譯參考了站內(nèi)up @NanikoQAQ 提供的建議,在此深表感謝。另外為保頁(yè)面整潔將不再保留references而只保留“角標(biāo)”,各位可前往原文自行查看相應(yīng)文獻(xiàn)。翻譯內(nèi)容僅供參考,如有讀者愿就不合理之處郢正一二,本人先行拜謝。

數(shù)據(jù)復(fù)用的相關(guān)議題已在合成生物學(xué)及更廣泛的科學(xué)界內(nèi)得到高度認(rèn)可。但出于對(duì)機(jī)器推理之強(qiáng)調(diào)及實(shí)際實(shí)施的缺乏,相關(guān)政策與規(guī)范仍未落地。于此我們討論已有的進(jìn)展,遺留的挑戰(zhàn)與潛在的解決方案。
十二年前,一封信被寫(xiě)就以強(qiáng)調(diào)出版物內(nèi)序列數(shù)據(jù)的不足所導(dǎo)致的合成生物學(xué)界復(fù)現(xiàn)與重復(fù)利用的缺失[1]。這反映出人們對(duì)于數(shù)據(jù)在科研推進(jìn)、創(chuàng)新及經(jīng)濟(jì)發(fā)展等方面之關(guān)鍵作用的認(rèn)知正不斷增強(qiáng)。這一認(rèn)知已導(dǎo)致對(duì)于數(shù)據(jù)科學(xué)及數(shù)據(jù)基建的投資不斷增加,也提高了人們對(duì)于有效的數(shù)據(jù)管理與共享實(shí)踐之必要性的認(rèn)知:數(shù)據(jù)必須可被查找(findable)、可被訪問(wèn)(accessible)、可被互動(dòng)(interoperable)、可被復(fù)用(reusable,縮寫(xiě)為FAIR)[2],并且需被管理以達(dá)成以上目標(biāo)——然而,解決基因片段復(fù)用不足的問(wèn)題仍留有漫漫長(zhǎng)路亟待求索。
已有進(jìn)展

一直以來(lái),大學(xué)、公司、期刊及資助機(jī)構(gòu)等不同社群中不斷提升的數(shù)據(jù)認(rèn)知都在推動(dòng)基因數(shù)據(jù)復(fù)用的進(jìn)展。伴隨著數(shù)據(jù)科學(xué)的普遍趨勢(shì),這些社群正著手改善遺傳學(xué)數(shù)據(jù)的規(guī)范化與儲(chǔ)存。為達(dá)到這一目的,他們正執(zhí)行多樣的政策以求確?;驍?shù)據(jù)被系統(tǒng)地管理與共享。其中一個(gè)最顯著的范例便是聯(lián)合國(guó)教科文組織的《開(kāi)放科學(xué)建議書(shū)》,其對(duì)數(shù)據(jù)儲(chǔ)存、規(guī)范化及可訪問(wèn)性等開(kāi)放科學(xué)的實(shí)施細(xì)節(jié)制定了指導(dǎo)方針。另一示例是資助機(jī)構(gòu)為保證數(shù)據(jù)被正確儲(chǔ)存與管理而對(duì)數(shù)據(jù)管理方案提出的要求,例如美國(guó)國(guó)家科學(xué)基金會(huì)、疾控中心、國(guó)立衛(wèi)生研究院和英國(guó)生物技術(shù)與生物科學(xué)研究理事會(huì)。此外,一些期刊現(xiàn)在也對(duì)序列呈遞提出要求或提供建議,例如《Nature》和《Science》。一方面此類政策很好,因?yàn)樗鼈兒w了較大的范圍從而包含了基因的部分。另一方面,它的廣泛度導(dǎo)致了關(guān)于政策應(yīng)被如何實(shí)施及它們應(yīng)是激勵(lì)性質(zhì)的抑或帶有強(qiáng)制色彩的不確定性。
公眾認(rèn)知也促進(jìn)了社群規(guī)范的形成。合成生物學(xué)社群內(nèi)的標(biāo)準(zhǔn)包含了合成生物學(xué)開(kāi)放語(yǔ)言(SBOL)[3],標(biāo)準(zhǔn)歐洲矢量架構(gòu)(SEVA)[4]及生物積木標(biāo)準(zhǔn)[5]。不同的數(shù)據(jù)標(biāo)準(zhǔn)服務(wù)于不同的用途。某些標(biāo)準(zhǔn)側(cè)重于數(shù)據(jù)的格式與結(jié)構(gòu),另外一些則聚焦于可視化,還有一些專注于匯編。但所有的數(shù)據(jù)標(biāo)準(zhǔn)都服務(wù)于一項(xiàng)共通的目標(biāo):促進(jìn)數(shù)據(jù)的復(fù)用。為數(shù)據(jù)標(biāo)準(zhǔn)的管理、分享和使用建立清晰而一致的框架有助于確保數(shù)據(jù)對(duì)于數(shù)量繁多的個(gè)人與組織是可訪問(wèn)且可使用的。通過(guò)協(xié)作,這些標(biāo)準(zhǔn)創(chuàng)建出一系列魯棒又靈活的基礎(chǔ)設(shè)施來(lái)支撐合成生物學(xué)的發(fā)展。
遺留挑戰(zhàn)

合成生物學(xué)領(lǐng)域的發(fā)展映射著數(shù)據(jù)科學(xué)的全面推移與前進(jìn)。這是由于合成生物學(xué)所面對(duì)的大量挑戰(zhàn)與議題與更廣泛的數(shù)據(jù)科學(xué)所需面臨的相類似。序列數(shù)據(jù)管理時(shí)下所面對(duì)包含可查找性、可訪問(wèn)性、可互動(dòng)性、可復(fù)用性等方面的若干議題。盡管若干政策及標(biāo)準(zhǔn)理論上可以解決這些議題,但許多政策都含糊不清因而時(shí)下無(wú)法解決針對(duì)數(shù)據(jù)的機(jī)器推理,或干脆未被充分執(zhí)行。
我們?cè)诖苏雇@樣的未來(lái):我們將可以向數(shù)據(jù)庫(kù)問(wèn)出這樣的問(wèn)題:”堆囊菌亞目細(xì)菌中最強(qiáng)的啟動(dòng)子有哪些?“而數(shù)據(jù)庫(kù)遞交出一份可被基于例如對(duì)不需要的限制酶位點(diǎn)的排除或熱穩(wěn)定性等進(jìn)一步的標(biāo)準(zhǔn)進(jìn)行過(guò)濾的結(jié)果清單。另外,倘若獲得的結(jié)果有限,數(shù)據(jù)庫(kù)可以反饋其他的查詢建議,例如”未能從堆囊菌亞目細(xì)菌中尋得結(jié)果,您想在粘球菌目中進(jìn)行查詢嗎?“一旦一項(xiàng)結(jié)果被打開(kāi),頁(yè)面內(nèi)就應(yīng)有足夠的信息來(lái)幫助確認(rèn)該原件能否勝任期望的應(yīng)用。在堆囊菌亞目細(xì)菌啟動(dòng)子的示例中,它或許會(huì)報(bào)告在不同環(huán)境條件下測(cè)得的相對(duì)啟動(dòng)子單位數(shù)量(RPUs)[6]并附錄對(duì)有關(guān)實(shí)驗(yàn)文獻(xiàn)的引用。盡管現(xiàn)下它有可能回答此類問(wèn)題,但這絕非易事——它所需的時(shí)間與精力阻礙人們前進(jìn),浪費(fèi)科研經(jīng)費(fèi)。雖然看似難以置信,但這是一個(gè)可達(dá)成的目標(biāo),因?yàn)槠渲性S多部分已經(jīng)就位。下文將討論仍待解決的阻礙。
可查找性
由于機(jī)器對(duì)于數(shù)據(jù)推理無(wú)能為力且集成化的序列數(shù)據(jù)庫(kù)尚且缺失,基因片段常常是難以定位的。盡管存在諸如GenBank[7]、SynBioHub[8]、JBEI-ICE[9]、iGEM BioBrick Registry[10]、Addgene[11]之類的數(shù)據(jù)庫(kù),但能在數(shù)據(jù)庫(kù)上運(yùn)行的查詢?nèi)詾閿?shù)據(jù)庫(kù)接口、數(shù)據(jù)庫(kù)所存儲(chǔ)的元數(shù)據(jù)及被輸入數(shù)據(jù)庫(kù)的數(shù)據(jù)等因素所限制。一些期刊對(duì)于序列的提交有清晰的準(zhǔn)則,并為審稿人提供了待驗(yàn)證沉積序列的清單以進(jìn)行支持。其它期刊的政策更加隱蔽:審稿人未被要求進(jìn)行驗(yàn)證。因此,盡管對(duì)于序列數(shù)據(jù)的遞交再增加,但這絕非普遍存在。另外,元數(shù)據(jù)的領(lǐng)域因數(shù)據(jù)庫(kù)而異。例如,Addgene包含了細(xì)菌增殖的數(shù)據(jù),而GenBank沒(méi)有。包含基因組最小信息標(biāo)準(zhǔn)(MIGS)[12]所要求的全部元數(shù)據(jù)的數(shù)據(jù)庫(kù)并不存在。這一問(wèn)題或許可以通過(guò)被良好索引的分布式數(shù)據(jù)存儲(chǔ)或被良好規(guī)劃的中心式數(shù)據(jù)庫(kù)來(lái)解決。
可訪問(wèn)性
目前的系統(tǒng)正為人與計(jì)算機(jī)無(wú)法獲取數(shù)據(jù)的現(xiàn)狀所困擾。之于”待請(qǐng)求數(shù)據(jù)“的通常做法往往遭遇作者回復(fù)的缺乏[13]。即便數(shù)據(jù)可供使用,也常不具備可供機(jī)器讀取的格式。譬如,[14]表明絕大多數(shù)可獲取的補(bǔ)充序列都具備PDF格式。這使得即便可能,機(jī)器提取序列并對(duì)其執(zhí)行注釋或其他分析也是很艱難的。為解決此類問(wèn)題,序列數(shù)據(jù)必須不僅可供人獲取,還可使機(jī)器通過(guò)兼容機(jī)器推理標(biāo)準(zhǔn)的中心式數(shù)據(jù)庫(kù)來(lái)使用(也即機(jī)器可使用的格式)。部分元數(shù)據(jù)已可被機(jī)器獲取,但這并非全部。例如Genbank在基態(tài)物種的前提下提供了分類學(xué)ID。然而,Addgene的物種未被附注。另外,所有數(shù)據(jù)庫(kù)都能夠增加的使用,例如ORCID、基因本體論[15]、序列本體論[16]和DOI。收集更廣泛的元數(shù)據(jù)可以擴(kuò)大用戶搜尋與揀選的范圍數(shù)量。本體論的使用使得機(jī)器歸因(例如推薦子組或超組以縮小或擴(kuò)大搜索范圍)成為可能。最后,使用獨(dú)特標(biāo)識(shí)符可容許不同數(shù)據(jù)庫(kù)間的整合(例如查詢同一作者的期刊文章,或?qū)niprot[17]與Genbank的記錄連接)[18]。另一方面,以ChatGPT為代表的大語(yǔ)言模型(LLM)的崛起或?qū)⒃黾訖C(jī)器可訪問(wèn)的數(shù)據(jù)類型。然而所要求的信息仍需存在,無(wú)論格式為何。此外,大語(yǔ)言模型們作為機(jī)器學(xué)習(xí)的一員尚未可被解釋,因此模型必須經(jīng)過(guò)嚴(yán)謹(jǐn)?shù)脑u(píng)估后方可作為研究進(jìn)程的一部分得到信任。為此,一項(xiàng)TruthfulQA基準(zhǔn)的生物學(xué)同位體是很有必要的。
可互動(dòng)性
與基因片段相關(guān)聯(lián)元數(shù)據(jù)的不足阻礙了它們與其他部分的整合。譬如序列通常不包含有關(guān)于限制性酶切位點(diǎn)的元數(shù)據(jù)。在僅有例如引物或質(zhì)粒參照的部分序列信息的情況下這尤其令人困擾。然而,即便有時(shí)序列可被利用,運(yùn)行單質(zhì)粒注釋所需的時(shí)間對(duì)研究人員來(lái)說(shuō)仍是不必要的負(fù)擔(dān)。如若在提交時(shí)進(jìn)行限制性酶切位點(diǎn)修飾,研究者們將得以輕松地篩選出帶有不被需要限制性位點(diǎn)的質(zhì)?;蛘邩?gòu)建體以完成部分初步搜索。確保全部序列可用是良好的開(kāi)始,但我們建議涵蓋一系列可互動(dòng)性課題的元數(shù)據(jù)收集也是被需要的。所需元數(shù)據(jù)的清單可基于一項(xiàng)機(jī)器可訪問(wèn)的DNA構(gòu)建協(xié)議描述用框架[19],QUEEN(生成可五等分?[譯者注:此翻譯僅供參考,譯者本人都覺(jué)得離譜]和可被高效編輯的核苷酸序列資源的框架)。
可復(fù)用性
允許序列在新情景中被復(fù)用的信息通常并不充分。如文獻(xiàn)[20]所述,我們有最低信息標(biāo)準(zhǔn);然而,它們的使用仍受限制,實(shí)施較少。此外,當(dāng)下的遺傳最低信息標(biāo)準(zhǔn)在合成生物學(xué)的背景下表現(xiàn)如何尚未明確。關(guān)于預(yù)測(cè)新有機(jī)體或不同環(huán)境背景中序列功能所需信息的數(shù)據(jù)仍有限。定義何種信息為此類預(yù)測(cè)所需是必要的。一旦此事項(xiàng)被完成,該標(biāo)準(zhǔn)就應(yīng)被以與前文所述有關(guān)可查找性、可訪問(wèn)性、可互動(dòng)性相兼容的方式被實(shí)施。并非所有被最低信息標(biāo)準(zhǔn)要求的信息都需被存儲(chǔ)在單一數(shù)據(jù)庫(kù)中;然而,它必須被以可對(duì)完整數(shù)據(jù)集進(jìn)行查閱的方式連接。這不僅能提高序列數(shù)據(jù)的可查找-訪問(wèn)-互動(dòng)-復(fù)用性,還節(jié)省了在重復(fù)表征實(shí)驗(yàn)和生物信息學(xué)分析上所花費(fèi)的時(shí)間與資源,使得合成構(gòu)建體的設(shè)計(jì)與構(gòu)造更加輕松,更加劃算。
總結(jié)

我們?cè)噲D以事后的方式對(duì)一投稿至ACS Synthetic Biology的文章實(shí)施大量經(jīng)建議的方案[14]。然而,出于機(jī)器可讀序列的缺失、自然語(yǔ)言處理的困難及語(yǔ)言的固有二義性,這被證明是極具挑戰(zhàn)性的。S. aureus可代指美麗硬仆骨舌魚(yú)(Scleropages aureus)、金色千里光(Senecio aureus)、輝亭鳥(niǎo)(Sericulus aureus)、金卵石螺(Somatogyrus aureus)及金黃色葡萄球菌(Staphylococcus aureus)等若干不同物種的事實(shí)即為此種二義性的呈現(xiàn)。有時(shí)我們可以從內(nèi)容中獲知其指代何種生物,但這并非常態(tài)。反之,我們推薦提示作者以機(jī)器可訪問(wèn)的格式進(jìn)行所需序列數(shù)據(jù)的提交,并附加包含背景關(guān)鍵詞的特定標(biāo)簽的集成綜合處理[14][21]。這一綜合處理進(jìn)程可以是半自動(dòng)化的,也可被整合入論文投稿的工作流中。這將會(huì)使得作者的額外工作最小化。使序列數(shù)據(jù)的綜合處理成為投稿和審稿流程的一部分將有助于數(shù)據(jù)管理政策的執(zhí)行與序列數(shù)據(jù)可查找-訪問(wèn)-互動(dòng)-復(fù)用性的提高。這將對(duì)整個(gè)研究社群產(chǎn)生正面的影響,并使得數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)變得更加輕松,更加高效。