CDISC遞交數(shù)據(jù)--SDTM Dataset Metadata之SUPPQUAL —Primary key
4.1.1.9 Assigning Natural Keys in the Metadata
SDTMIG V3.2版本以PE舉例,3.4以MK舉例。
Physical Examination (PE) domain example
Musculoskeletal System Findings (MK) Domain Example
以SDTMIG V3.2為主:
Section 3: 3.2, Using the CDISC Domain Models in Regulatory Submissions - Dataset Metadata說明natural key屬于sponsor遞交數(shù)據(jù)集metadata的一部分。datasets中每條records可能由不同的natural key來描述獨立性,那么則需要提供最完整描述dataset structure的natural key。(因為records級別的natural keys可能不同,所以在datasets級別需要做一個全面的涵蓋所有records的natural keys)下面示例介紹了如何定義natural keys,并且是包含Supplemental Qualifier(補充修飾)變量(組成natural key的一部分)。
體格檢查(PE):
Sponsor A 選擇以下變量作為PE的natural key:
STUDYID, USUBJID, VISTNUM, PETESTCD
Sponsor B 則是另一種方式收集數(shù)據(jù),location(PELOC)和method(PEMETHOD)變量需要包含在natural key里,以標識唯一觀測行,但是沒有收集訪視(VISIT)變量;而是使用訪視日期(PEDTC)對數(shù)據(jù)進行排序。所以Sponsor B 定義以下變量為PE的natural key。
STUDYID, USUBJID, PEDTC, PETESTCD, PELOC, PEMETHOD
在某些情況下,補充修飾變量(例如:QNAM 中的某個值,Section 8: 8.4, Relating Non-Standard Variables Values To A Parent Domain)也可以是觀測的natural key,因此可以作為domain的natural key的一部分。這里需要特別注意的是,domain并不受physical structure的限制(natural keys是用來描述數(shù)據(jù)集的physical structure,而一般的natural keys由standard variables構(gòu)成,故此處可理解為可添加SUPPQUAL變量)。一個domain可能由多個數(shù)據(jù)集構(gòu)成,例如:main domain(父域) 數(shù)據(jù)集和與相關(guān)的Supplemental Qualifiers(子域)數(shù)據(jù)集。應(yīng)該使用兩部分名稱將補充修飾變量也列在natural key里面。單詞“QNAM” 應(yīng)該作為第一部分名稱使用,以說明在數(shù)據(jù)集中存在此變量(比如某對應(yīng)domian的SUPP--數(shù)據(jù)集的QNAM,或者general SUPPQUAL 數(shù)據(jù)集里的QNAM)【此處標黃部分為3.2版本解釋,3.4版本:QNAM來自對應(yīng)的SUPP--數(shù)據(jù)集中的QNAM】,當SUPPQUAL記錄(即與domain對應(yīng)的SUPP--數(shù)據(jù)集)與對應(yīng)的main domain數(shù)據(jù)集聯(lián)合起來的時候,QNAM 的值最終會作為變量名(例如:QNAM.XVAR,當SUPP--數(shù)據(jù)集的一條記錄含有QNAM 的值為“XVAR”)。
??????? 接著上面的PE示例,Sponsor B 可能會使用超聲檢查作為測量方法,并且會收集一些關(guān)于使用的設(shè)備的額外信息(如:制造商、模式)。Sponsor認為“制造商和模式”信息是必要的數(shù)據(jù)有助于檢查數(shù)據(jù)的唯一性,所以創(chuàng)建補充修飾變量“制造商(QNAM=PEMAKE)”和“模式(QNAM=PEMODEL)”。natural key定義為以下幾個變量(本例只為展示natural key,真實數(shù)據(jù)模型需遵循SDTMIG-MD):
STUDYID, USUBJID, PEDTC, PETESTCD, PELOC, PEMETHOD, QNAM.PEMAKE,
QNAM.PEMODEL
對于Finading類domain,當Sponsor選擇使用generic(通用型)的--TESTCD 值而非復(fù)合--TESTCD 值時,這種方法是非常有用的。【3.4:當--TESTCD值是“generic”并且依賴于其他變量來完整地描述test時,這種方法在finding 類domain中非常有用?!渴褂胓eneric test code,有助于為--TESTCD 變量創(chuàng)建獨立的可管理控制術(shù)語(CT)列表。在需要做多種重復(fù)檢查或測量的研究中(例如類風(fēng)濕性關(guān)節(jié)炎研究中,需要使用X-線和MRI 設(shè)備對手和手腕的骨侵蝕進行多次重復(fù)檢查),
記錄這種數(shù)據(jù)的方法是對每種測量創(chuàng)建單獨--TESTCD 值。【3.2】
用generic --TESTCD 和其他變量一起識別結(jié)果?!?.4】
?僅對于趾骨,為確保其唯一性,Sponsor可能用以下test?code來說明:
左手或右手
趾骨位置(近端/遠端/中間)
手的旋轉(zhuǎn)(方向)
測量方法(X-線/MRI)
機器制造商
機器模式
?不建議把上述所有的信息都填充--TESTCD來創(chuàng)造一個唯一值,原因如下:(3.2)
當一個test的CDISC 控制術(shù)語不可用,并且Sponsor創(chuàng)造了--TEST和--TESTCD值時,將test的所有信息記錄在一個唯一的--TESTCD值中是不推薦的方法,原因如下:(3.4)
可能會產(chǎn)生大量的test codes(--TESTCD)。
8 位字符的--TESTCD 值變的無意義
多種test code都是代表同一種檢查或測量,--TESTCD 值變成了只是單純存放檢查的屬性數(shù)據(jù)(例如:--TESTCD 值只是為了說明采取的測量的身體位置)。
綜上所述,推薦的方法是使用generic的(或簡單的)test code以及一些相關(guān)的修飾變量來說明test的詳細信息。使用這種方法來說明上面的示例為:--TESTCD 值為“EROSION”,其他的test codes值使用一些不同的修飾變量??赡軙恍┰赟DTM IG domain中存在的變量(--LOC、--METHOD 等)和補充修飾變量(QNAM.MAKE、QNAM.MODEL 等)。在這種情況下,這些變量需要保持test的唯一性,所以說明natural key很重要。
如果使用generic的--TESTCD,下面的變量可以完全描述檢查。檢查是“EROSION”,位置是“Left MCP I”,測量方法是“Ultrasound”,超聲設(shè)備制造商是“ACME”,超聲設(shè)備的模式是“u2.1”。這個domain中包含SDTM IG domain已存在的變量和補充修飾變量,這些變量組成了每一行的natural key并描述其唯一性。
補充:
--SEQ variable,surrogate key對于跨數(shù)據(jù)集(比如從SUPPQUAL鏈接回它們的父域)或使用RELREC數(shù)據(jù)集時非常有用。但是,surrogate key變量不應(yīng)用作domain的key。TS domain是一個顯著的例外。
SUPPQUAL數(shù)據(jù)集
SDTM model有一種利用補充限定符(SUPPQUAL)數(shù)據(jù)集來利用非標準(non-standard)變量的特殊方法。SUPPQUAL數(shù)據(jù)集中的QNAM和QLABEL變量表示新的非標準變量的名稱和標簽,QVAL存儲其值。通過RDOMAIN, USUBJID, IDVAR和IDVARVAL變量來連接父域。在大多數(shù)情況下,surrogate?key?--SEQ用于標識父記錄(例如,IDVAR=?‘AESEQ ')。
總結(jié):
1.為何使用SUPPQUAL變量來作為Natural key?
因為standard variables不足以完整的描述收集來的數(shù)據(jù)的結(jié)構(gòu),所以需要增加SUPPQUAL變量體現(xiàn)數(shù)據(jù)的唯一性。
2.什么時候使用SUPPQUAL變量作為Key?
a.SDTM版本outdated,新版本的Standard variables舊版本沒有,只能放到SUPPQUAL。
b.例如,SDTM有一個變量--LAT,這意味著在一個受試者體外如“左腿”和“右腿”偏側(cè)(Laterality) (如“左”或“右”)。在臨床前研究中,有一個額外的概念,即在一個器官內(nèi)而不是在受試者體外的偏側(cè),如“肝臟左側(cè)”與“肝臟右側(cè)”。Standard --LAT變量不適用于這種情況。預(yù)期會使用新的非標準變量。也許SDTM模型可以引入相似的變量作為標準變量。在此之前,唯一的選擇是將它們存儲在SUPPQUAL數(shù)據(jù)集中。
c.如果超過200字符長度,也會把變量拆分,比如DVTERM, QNAM.DVTERM1, QNAM.DVTERM2….
3.什么時候不能使用SUPPQUAL變量作為Key?
有一些標準的SDTM變量使用起來極其靈活,有時可以用來代替SUPPQUAL數(shù)據(jù)集。
--SPID變量是Sponsor定義的標識符。SDTM IG認為其不僅是標識符,也有跨domains的意義。
例如,以前許多用戶使用--SPID變量來追溯Vital Signs的重復(fù)測量。正式來說,它被認為是糟糕的SDTM映射實踐,因為重復(fù)編號是Record Qualifier而不是Identifier。因此,CDISC在SDTM-IG 3.3中增加了新的--REPNUM變量,防止--SPID變量的誤用。
然而,在實踐中,大多數(shù)用戶更傾向于在父域而不是SUPPQUAL數(shù)據(jù)集中保存可能包含domain keys的重要信息。雖然這違反了SDTM model,但將所有核心信息集中在一起的好處促使user選擇這種操作。