高效學(xué)術(shù)詞匯學(xué)習(xí):《SCI詞匯冊(cè)》的設(shè)計(jì),開發(fā)與使用

摘要
隨著科學(xué)研究的快速發(fā)展,閱讀SCI論文已成為學(xué)生和研究者提升自身學(xué)術(shù)素養(yǎng)、了解學(xué)術(shù)前沿的重要途徑。然而,非英語(yǔ)母語(yǔ)者在閱讀SCI論文時(shí),往往會(huì)面臨專業(yè)術(shù)語(yǔ)和學(xué)術(shù)詞匯的障礙。針對(duì)這一問(wèn)題,《SCI詞匯冊(cè)》小程序提供了一種精準(zhǔn)、高效、便捷的解決方案。本文介紹了其設(shè)計(jì)理念和功能特點(diǎn),包括:針對(duì)SCI論文中高頻詞匯的統(tǒng)計(jì)與篩選、相近詞匯整合、易于理解的中文釋義、簡(jiǎn)潔易用的界面、方便自由的難度調(diào)節(jié)等。我們期望,《SCI詞匯冊(cè)》能夠有效幫助我國(guó)學(xué)生和研究者克服閱讀SCI論文過(guò)程中的語(yǔ)言障礙,提高學(xué)術(shù)閱讀效率,為他們?cè)诳蒲蓄I(lǐng)域取得成功創(chuàng)造更好的條件。
引言
對(duì)于有志于從事科學(xué)研究的非英語(yǔ)母語(yǔ)者而言,學(xué)術(shù)文獻(xiàn)中龐雜的專業(yè)詞匯構(gòu)成了一項(xiàng)持續(xù)且頗具消耗性的挑戰(zhàn)。長(zhǎng)期以來(lái),專業(yè)詞匯學(xué)習(xí)的主要是通過(guò)個(gè)人在課堂學(xué)習(xí),閱讀英語(yǔ)教材以及學(xué)術(shù)論文過(guò)程中逐漸積累。然而,這些方法都存在一些明顯的缺點(diǎn)。課堂學(xué)習(xí)往往只能涵蓋部分基礎(chǔ)詞匯;通過(guò)閱讀英語(yǔ)教材和專業(yè)書籍雖能更全面地學(xué)習(xí)相關(guān)領(lǐng)域的詞匯,但需要投入大量時(shí)間和毅力,且很多新興的熱門概念并未包含在基礎(chǔ)教材中。目前較為通行的方法是直接閱讀論文,在閱讀過(guò)程中逐步積累詞匯,其于實(shí)踐之中學(xué)習(xí)的優(yōu)點(diǎn)毋庸置疑,但系統(tǒng)性不足。尤其在詞匯積累初期,學(xué)習(xí)者難以判斷單詞的重要性和記憶的必要性。此外,初期閱讀時(shí)需要大量查詞,這讓閱讀過(guò)程變得支離破碎,難以保持對(duì)文章整體邏輯的理解;且頻繁在閱讀和查詞狀態(tài)間切換使保持專注的難度加大,而查詢了大量單詞卻離讀完/理解一篇論文還頗遙遠(yuǎn)也會(huì)讓初學(xué)者積累挫敗感。這些障礙導(dǎo)致專業(yè)詞匯學(xué)習(xí)過(guò)程消耗了許多有志于科研的學(xué)生們無(wú)數(shù)的時(shí)間、精力和意志力。
因此,我們針對(duì)這些痛點(diǎn)和難點(diǎn)設(shè)計(jì)開發(fā)了《SCI詞匯冊(cè)》,希望能幫助我國(guó)學(xué)者和未來(lái)學(xué)者們更加精準(zhǔn)、高效地進(jìn)行專業(yè)詞匯學(xué)習(xí),將有限的心智資源更多地投入到更具意義、更吸引人、更需要才智和創(chuàng)造力的學(xué)習(xí)研究過(guò)程中。為了實(shí)現(xiàn)這一目標(biāo),我們進(jìn)行了一些創(chuàng)新性的工作,并投入大量時(shí)間和精力進(jìn)行內(nèi)容的完善。鑒于《SCI詞匯冊(cè)》的潛在受眾對(duì)研究論文寫作風(fēng)格的熟悉,以及論文形式在組織復(fù)雜內(nèi)容方面的優(yōu)勢(shì),我們決定在本文中以學(xué)術(shù)論文范式詳細(xì)介紹《SCI詞匯冊(cè)》的各個(gè)方面。如果您不想花費(fèi)較多時(shí)間閱讀本文,也可以快速縱覽后文中各個(gè)小標(biāo)題并在結(jié)尾附錄部分直接獲取小程序試用。
方法
論文文本數(shù)據(jù)獲取,全面覆蓋不遺漏
由于《SCI詞匯冊(cè)》第一階段的規(guī)劃中只計(jì)劃完成生命科學(xué)方面的詞庫(kù),我們選擇采用PubMed Central數(shù)據(jù)庫(kù)庫(kù)中的文獻(xiàn)進(jìn)行詞頻統(tǒng)計(jì)。PubMed Central? (PMC) 是美國(guó)國(guó)立衛(wèi)生研究院國(guó)家醫(yī)學(xué)圖書館 (NIH/NLM) 的生物醫(yī)學(xué)和生命科學(xué)期刊文獻(xiàn)的免費(fèi)全文檔案庫(kù),也是該領(lǐng)域最著名和通用的文獻(xiàn)全文數(shù)據(jù)庫(kù)。我們通過(guò)其批量下載API獲取了PMC中所有允許商用的開放獲取文獻(xiàn)全文數(shù)據(jù)共百萬(wàn)余篇,用于下一步的統(tǒng)計(jì)分析,以保證分析出的詞頻數(shù)據(jù)可提現(xiàn)普遍情況。出現(xiàn)頻次統(tǒng)計(jì),定量化展示詞匯常用性
為保證全面準(zhǔn)確的統(tǒng)計(jì)出常見(jiàn)詞匯和短語(yǔ)的出現(xiàn)頻次,我們聯(lián)合使用了多種分詞/切片方式,并摸索了一些具有創(chuàng)新性的文本模式識(shí)別方法,最后將以上步驟得到的詞頻進(jìn)行綜合,得出一份高頻詞匯/短語(yǔ)列表。篩選與整合,減少額外認(rèn)知負(fù)擔(dān)
統(tǒng)計(jì)得出的高頻詞匯/短語(yǔ)中有大量并不具有專業(yè)/學(xué)術(shù)性質(zhì)的、通常在常規(guī)英語(yǔ)學(xué)習(xí)中已經(jīng)學(xué)過(guò)的普通詞匯,我們收集了多個(gè)英語(yǔ)常用詞列表對(duì)其進(jìn)行了預(yù)處理,并通過(guò)人工篩選保證盡可能去除不必收錄的學(xué)術(shù)無(wú)關(guān)詞匯。由于英語(yǔ)的構(gòu)詞法決定了一個(gè)單詞可通過(guò)轉(zhuǎn)化、合成和派生等方式產(chǎn)生出許多詞性不同、應(yīng)用場(chǎng)景不同或含義略有不同的衍生詞,若分別記憶則效率低下,只記“基礎(chǔ)詞”則可能導(dǎo)致對(duì)衍生詞們的不熟悉。為此我們?cè)O(shè)計(jì)了詞組歸并算法并根據(jù)運(yùn)行情況對(duì)其進(jìn)行了大量改進(jìn),以及繼續(xù)通過(guò)人工干預(yù)調(diào)整算法難以完美處理的部分以保證質(zhì)量。在中文釋義方面,我們同樣綜合了多個(gè)詞典/翻譯工具提供的材料,結(jié)合自身經(jīng)驗(yàn)為每一個(gè)詞匯(組)確定盡可能準(zhǔn)確表達(dá)其含義(對(duì)于一般場(chǎng)景與學(xué)術(shù)場(chǎng)景含義常有不同的詞匯,還會(huì)著重考慮體現(xiàn)其學(xué)術(shù)用法)并易于理解的釋義,努力避免給使用者帶來(lái)困惑。劃分詞庫(kù)、標(biāo)定難度,遇見(jiàn)自己需要的詞匯
鑒于《SCI詞匯冊(cè)》的用戶群中,一定有許多已經(jīng)在專業(yè)詞匯學(xué)習(xí)道路上付出過(guò)不少努力了,為所有用戶提供同樣的詞庫(kù)顯然不是合理的做法。因此我們采用了每個(gè)一級(jí)學(xué)科(如生物學(xué))一個(gè)基礎(chǔ)詞庫(kù)+多個(gè)分領(lǐng)域子詞庫(kù)的配置,盡量讓處于不同階段、對(duì)不同領(lǐng)域感興趣的學(xué)習(xí)者都能使用符合自己需要的詞庫(kù)。且我們根據(jù)自身經(jīng)驗(yàn)嘗試給每個(gè)詞匯(組)都標(biāo)上了相對(duì)難度值,允許用戶根據(jù)自身需求篩選適宜難度的詞匯。這有助于用戶有效地根據(jù)自己的掌握程度和預(yù)期目標(biāo)進(jìn)行詞匯學(xué)習(xí),避免時(shí)間和精力的浪費(fèi)。程序界面設(shè)計(jì),一切為了易用
出于盡可能讓《SCI詞匯冊(cè)》易于獲取的考慮,我們將其實(shí)現(xiàn)成了微信小程序形式,只要使用微信掃碼或搜索“SCI詞匯冊(cè)”即可開始使用,無(wú)需額外的下載和安裝。在設(shè)計(jì)用戶界面時(shí),我們傾向于選擇簡(jiǎn)潔而實(shí)用的風(fēng)格,盡量讓使用者無(wú)需在界面操作上投入時(shí)間和精力,更多地關(guān)注詞匯學(xué)習(xí)本身。
結(jié)果
統(tǒng)計(jì)、篩選高頻單詞、短語(yǔ)

我們使用詞云的方式對(duì)于生命科學(xué)基礎(chǔ)詞庫(kù)(即全部百萬(wàn)余篇論文)的詞頻統(tǒng)計(jì)結(jié)果進(jìn)行初步展示(Fig. 1), 可以看到即使已進(jìn)行基本處理、去除了最常見(jiàn)的通用詞語(yǔ),直接對(duì)論文進(jìn)行統(tǒng)計(jì)得到的高頻詞匯中仍存在大量并無(wú)學(xué)術(shù)相關(guān)性的普通常用詞匯(Fig. 1A), 而人工篩選過(guò)程最大程度只保留有顯著學(xué)術(shù)相關(guān)性的詞匯(Fig. 1B),努力提高使用時(shí)的學(xué)習(xí)效率。同時(shí)高頻詞組/短語(yǔ)同樣被統(tǒng)計(jì)、篩選了出來(lái)(Fig. 2), 以涵蓋學(xué)術(shù)詞匯的常用搭配和主要以詞組形態(tài)出現(xiàn)的學(xué)術(shù)概念。

詞匯組整合與釋義標(biāo)注
如Fig. 1A所示,原始統(tǒng)計(jì)結(jié)果中不僅有一些普通詞匯和標(biāo)注記號(hào)(t0等)的干擾,同時(shí)也有一些詞匯以不同形態(tài)重復(fù)出現(xiàn)(如cell&cells, fig&figure等)。因此,在篩選過(guò)程中我們也同時(shí)對(duì)明顯有衍生關(guān)系的詞匯<=>詞匯、詞匯<=>短語(yǔ)等進(jìn)行了歸并整合,使這些高度相關(guān)的內(nèi)容能夠被更高效地學(xué)習(xí)和記憶(Fig. 1B, 出于圖片可讀性的關(guān)系僅展示每個(gè)詞匯組的代表詞)。同樣出于上述目的,我們?yōu)槊總€(gè)詞匯組統(tǒng)一進(jìn)行了釋義標(biāo)注,首先突出整組詞匯的共通含義,而對(duì)于組中單詞間有較顯著含義細(xì)節(jié)/用法等方面差異的,也盡量按順序呈現(xiàn)每個(gè)單詞的特殊性。但由于工作量巨大和標(biāo)注者水平的限制,部分詞匯的含義和用法僅依靠詞匯組釋義可能并不容易理解,而隨著今年高水平AI大語(yǔ)言模型的涌現(xiàn),我們也計(jì)劃于之后的版本更新中引入AI講解功能,為學(xué)習(xí)者提供更多選擇。
詞庫(kù)覆蓋面
截至2023年6月,我們已完成生命科學(xué)基礎(chǔ)詞庫(kù)、分子生物學(xué)詞庫(kù)、神經(jīng)&認(rèn)知詞庫(kù)、生信&計(jì)算詞庫(kù)的制作并上線。我們正在不斷添加更多的生命科學(xué)子領(lǐng)域詞庫(kù),以實(shí)現(xiàn)更全面的覆蓋,之后也會(huì)努力擴(kuò)充其它一級(jí)學(xué)科的詞庫(kù)。此外,我們?yōu)榛A(chǔ)詞庫(kù)和領(lǐng)域詞庫(kù)提供了一定的協(xié)作能力,確保用戶可以先在基礎(chǔ)詞庫(kù)中學(xué)習(xí),然后進(jìn)入領(lǐng)域詞庫(kù)進(jìn)行深入學(xué)習(xí),并且不會(huì)再遇到在基礎(chǔ)詞庫(kù)中學(xué)習(xí)過(guò)的詞匯組;同時(shí),用戶也可以直接選擇領(lǐng)域詞庫(kù)進(jìn)行學(xué)習(xí),不用擔(dān)心錯(cuò)過(guò)該領(lǐng)域內(nèi)重要的基礎(chǔ)詞匯。
界面設(shè)計(jì)與功能展示
《SCI詞匯冊(cè)》的核心頁(yè)面——詞匯學(xué)習(xí)頁(yè)面采用了經(jīng)典的卡片式設(shè)計(jì),以簡(jiǎn)潔的布局引導(dǎo)學(xué)習(xí)者更容易地將注意力集中于單詞卡片中的內(nèi)容(Fig. 3)。單詞卡片內(nèi)部包含詞匯組的核心詞和(如果存在)頻次最高的4個(gè)衍生詞,以及它們的釋義。如果用戶想要程序朗讀當(dāng)前顯示的單詞或查看更多衍生詞,也都有明顯的按鈕可供點(diǎn)擊。單詞卡片下方則是一些必要的按鈕,學(xué)習(xí)者可以通過(guò)它們輕松地進(jìn)行收藏、調(diào)整難度等設(shè)置以及切換到下一組詞匯等。我們推薦使用者先在默認(rèn)的識(shí)記模式中進(jìn)行學(xué)習(xí),學(xué)習(xí)到一定進(jìn)度后程序?qū)⒆詣?dòng)引導(dǎo)至隱藏釋義的檢驗(yàn)?zāi)J街?,使用者可以先自行回憶釋義,然后點(diǎn)擊進(jìn)行對(duì)照,以復(fù)習(xí)和檢驗(yàn)近期學(xué)過(guò)的詞匯。更多可選的復(fù)習(xí)方式也在我們的開發(fā)計(jì)劃中。

總結(jié)與討論
本項(xiàng)目設(shè)計(jì)并開發(fā)了《SCI詞匯冊(cè)》,一款輔助(目前限生命科學(xué)領(lǐng)域)學(xué)術(shù)詞匯學(xué)習(xí)的工具。通過(guò)對(duì)海量SCI論文進(jìn)行統(tǒng)計(jì)分析,我們制作了包含高頻專業(yè)詞匯和短語(yǔ)的詞庫(kù),并審慎地進(jìn)行了篩選、整合與釋義標(biāo)注。詞庫(kù)的呈現(xiàn)工具——《SCI詞匯冊(cè)》小程序擁有簡(jiǎn)潔的界面以及自由調(diào)節(jié)難度等便利功能等。我們相信,當(dāng)前版本的《SCI詞匯冊(cè)》已經(jīng)能夠一定程度上幫助我國(guó)學(xué)習(xí)者高效學(xué)習(xí)專業(yè)詞匯,從而更有效地精進(jìn)學(xué)術(shù)英語(yǔ)閱讀與寫作能力。當(dāng)然,由于我們?cè)谠O(shè)計(jì)、開發(fā)這種規(guī)模的項(xiàng)目上能力和經(jīng)驗(yàn)都十分有限,目前的《SCI詞匯冊(cè)》可能在許多方面還無(wú)法滿足用戶以及我們自己的期待。我們也正在積極地繼續(xù)對(duì)其進(jìn)行完善,如添加更多詞庫(kù)、優(yōu)化已有詞庫(kù),以及引入AI講解等。如果您對(duì)《SCI詞匯冊(cè)》有任何建議或意見(jiàn),我們非常歡迎您通過(guò)評(píng)論或小程序反饋渠道向我們反饋。雖然我們的團(tuán)隊(duì)規(guī)模較?。ㄒ蝗巳?,一人兼職),可能無(wú)法快速實(shí)現(xiàn)所有的優(yōu)化建議,但我們十分珍視每一份想要幫助《SCI詞匯冊(cè)》變得更好的聲音,并在此提前表示感謝。
附錄
《SCI詞匯冊(cè)》小程序目前已上線,您可通過(guò)微信掃描下方小程序碼或微信搜索“SCI詞匯冊(cè)”獲取試用。
