醫(yī)療器械臨床試驗是指在具備相應條件的臨床試驗機構(gòu)中,對擬申請注冊的醫(yī)療器械在正常使用條件下的安全有效性進行確認的過程。臨床試驗是以受試人群(樣本)為觀察對象,觀察試驗器械在正常使用條件下作用于人體的效應或?qū)θ梭w疾病、健康狀態(tài)的評價能力,以推斷試驗器械在預期使用人群(總體)中的效應。由于醫(yī)療器械的固有特征,其試驗設計有其自身特點。
引言:醫(yī)療器械臨床試驗是指在具備相應條件的臨床試驗機構(gòu)中,對擬申請注冊的醫(yī)療器械在正常使用條件下的安全有效性進行確認的過程。臨床試驗是以受試人群(樣本)為觀察對象,觀察試驗器械在正常使用條件下作用于人體的效應或?qū)θ梭w疾病、健康狀態(tài)的評價能力,以推斷試驗器械在預期使用人群(總體)中的效應。由于醫(yī)療器械的固有特征,其試驗設計有其自身特點。
一、確定醫(yī)療器械臨床試驗目的:
臨床試驗需設定明確、具體的試驗目的。申請人可綜合分析試驗器械特征、非臨床研究情況、已在中國境內(nèi)上市(下文簡稱已上市)同類產(chǎn)品的臨床數(shù)據(jù)等因素,設定臨床試驗目的。臨床試驗目的決定了臨床試驗各設計要素,包括主要評價指標、試驗設計類型、對照試驗的比較類型等,進而影響臨床試驗樣本量。
二、醫(yī)療器械臨床試驗設計的基本類型和特點
(一)平行對照設計
隨機、雙盲、平行對照的臨床試驗設計可使臨床試驗影響因素在試驗組和對照組間的分布趨于均衡,保證研究者、評價者和受試者均不知曉分組信息,避免了選擇偏倚和評價偏倚,被認為可提供高等級的科學證據(jù),通常被優(yōu)先考慮。對于某些醫(yī)療器械,此種設計的可行性受到器械固有特征的挑戰(zhàn)。
(二)配對設計
對于治療類產(chǎn)品,常見的配對設計為同一受試對象的兩個對應部位同時接受試驗器械和對照治療,試驗器械和對照治療的分配需考慮隨機設計。配對設計主要適用于器械的局部效應評價,具有一定的局限性。例如,對于面部注射用交聯(lián)透明質(zhì)酸鈉凝膠的臨床試驗,配對設計在保證受試者基線一致性上比平行對照設計具有優(yōu)勢,但試驗中一旦發(fā)生系統(tǒng)性不良反應則難以確認其與試驗器械或?qū)φ掌餍档南嚓P(guān)性,且需要排除面部左右側(cè)局部反應的互相影響。因此,申請人考慮進行配對設計時,需根據(jù)產(chǎn)品特征,綜合考慮該設計類型的優(yōu)勢和局限性,恰當進行選擇,并論述其合理性。
對于診斷器械,若試驗目的是評價試驗器械的診斷準確性,常見的配對設計為同一受試者/受試樣品同時采用試驗器械和診斷金標準方法或已上市同類器械來進行診斷。
(三)交叉設計
在交叉設計的臨床試驗中,每位受試者按照隨機分配的排列順序,先后不同階段分別接受兩種或兩種以上的治療/診斷。此類設計要求前一階段的治療/診斷對后一階段的另一種治療/診斷不產(chǎn)生殘留效應,后一階段開始前,受試者一般需回復到基線狀態(tài),可考慮在兩個干預階段之間安排合理的洗脫期。
(四)單組設計
單組試驗的實質(zhì)是將主要評價指標的試驗結(jié)果與已有臨床數(shù)據(jù)進行比較,以評價試驗器械的有效性/安全性。與平行對照試驗相比,單組試驗的固有偏倚是非同期對照偏倚,由于時間上的不同步,可能引起選擇偏倚、混雜偏倚、測量偏倚和評價偏倚等,應審慎選擇。在開展單組試驗時,需要對可能存在的偏倚進行全面分析和有效控制。
三、醫(yī)療器械臨床試驗的受試對象
根據(jù)試驗器械預期使用的目標人群,確定研究的總體。綜合考慮對總體人群的代表性、臨床試驗的倫理學要求、受試者安全性等因素,制定受試者的選擇標準,即入選和排除標準。入選標準主要考慮受試對象對總體人群的代表性,如適應癥、疾病的分型、疾病的程度和階段、使用具體部位、受試者年齡范圍等因素。排除標準旨在盡可能規(guī)范受試者的同質(zhì)性,將可能影響試驗結(jié)果的混雜因素(如影響療效評價的伴隨治療、伴隨疾病等)予以排除,以達到評估試驗器械效應的目的。
四、醫(yī)療器械臨床試驗的評價指標
評價指標反映器械作用于受試對象而產(chǎn)生的各種效應,根據(jù)試驗目的和器械的預期效應設定。在臨床試驗方案中應明確規(guī)定各評價指標的觀察目的、定義、觀察時間點、指標類型、測定方法、計算公式(如適用)、判定標準(適用于定性指標和等級指標)等,并明確規(guī)定主要評價指標和次要評價指標。指標類型通常包括定量指標(連續(xù)變量,如血糖值)、定性指標(如有效和無效)、等級指標(如優(yōu)、良、中、差)等。對于診斷器械,臨床試驗評價指標通常包括定性檢測的診斷準確性(靈敏度、特異性、預期值、似然比、ROC曲線下面積等)或檢測一致性(陽性/陰性一致性、總一致性、KAPA值等),以及定量檢測回歸分析的斜率、截距和相關(guān)系數(shù)等。
五、醫(yī)療器械臨床試驗的比較類型和檢驗假設
(一)比較類型
臨床試驗的比較類型包括優(yōu)效性檢驗、等效性檢驗、非劣效性檢驗。采用安慰對照的臨床試驗,需進行優(yōu)效性檢驗。采用療效/安全性公認的已上市器械或標準治療方法進行對照的臨床試驗,可根據(jù)試驗目的選擇優(yōu)效性檢驗、等效性檢驗或非劣效性檢驗。
優(yōu)效性檢驗的目的是確證試驗器械的療效/安全性優(yōu)于對照器械/標準治療方法/安慰對照,且其差異大于預先設定的優(yōu)效界值,即差異有臨床實際意義。由于試驗器械特征、對照和主要評價指標等因素的不同,部分優(yōu)效性檢驗沒有考慮優(yōu)效性界值,申請人需論述不考慮優(yōu)效性界值的理由。等效性檢驗的目的是確證試驗器械的療效/安全性與對照器械的差異不超過預先設定的等效區(qū)間,即差異在臨床可接受的范圍內(nèi)。非劣效性檢驗的目的是確證試驗器械的療效/安全性如果低于對照器械,其差異小于預先設定的非劣效界值,即差異在臨床可接受范圍內(nèi)。在優(yōu)效性檢驗中,如果試驗設計合理且執(zhí)行良好,試驗結(jié)果可直接確證試驗器械的療效/安全性。在等效性試驗和非劣效性試驗中,試驗器械的療效/安全性建立在對照器械預期療效/安全性的基礎上。
(二)界值
無論優(yōu)效性試驗、等效性試驗或非劣效性試驗,要從臨床意義上確認試驗器械的療效/安全性,均需要在試驗設計階段制定界值并在方案中闡明。優(yōu)效界值是指試驗器械與對照器械之間的差異具有臨床實際意義的最小值。等效或非劣效界值是指試驗器械與對照器械之間的差異不具有臨床實際意義的最大值。優(yōu)效界值、非劣效界值均為預先制定的一個數(shù)值,等效界值需要預先制定優(yōu)側(cè)、劣側(cè)兩個數(shù)值。
界值的制定主要考慮臨床實際意義,需要被臨床認可或接受。理論上,非劣效界值的確定可采用兩步法,一是通過Meta分析估計對照器械減去安慰效應后的絕對效應或?qū)φ掌餍档南鄬π狹1,二是結(jié)合臨床具體情況,在考慮保留對照器械效應的適當比例1-f后,確定非劣效界值M2(M2=f×M1)。f越小,試驗器械的效應越接近對照器械,一般情況下,f的取值在0~0.5之間。制定等效界值時,可用類似的方法確定下限和上限。
(三)檢驗假設
試驗方案需明確檢驗假設和假設檢驗方法,檢驗假設依據(jù)試驗目的確定,假設檢驗方法依據(jù)試驗設計類型和主要評價指標類型確定。附錄1提供了部分試驗設計和比較類型下的檢驗假設舉例,供參考。
六、醫(yī)療器械臨床試驗的樣本量估算
臨床試驗收集受試人群中的療效/安全性數(shù)據(jù),用統(tǒng)計分析將基于主要評價指標的試驗結(jié)論推斷到與受試人群具有相同特征的目標人群。為實現(xiàn)樣本(受試人群)代替總體(目標人群)的目的,臨床試驗需要一定的受試者數(shù)量(樣本量)。樣本量大小與主要評價指標的變異度呈正相關(guān),與主要評價指標的組間差異呈負相關(guān)。
樣本量一般以臨床試驗的主要評價指標進行估算。需在臨床試驗方案中說明樣本量估算的相關(guān)要素及其確定依據(jù)、樣本量的具體計算方法。附錄2提供了樣本量估算公式的樣例,供參考。確定樣本量的相關(guān)要素一般包括臨床試驗的設計類型和比較類型、主要評價指標的類型和定義、主要評價指標有臨床實際意義的界值、主要評價指標的相關(guān)參數(shù)(如預期有效率、均值、標準差等)、Ⅰ類和Ⅱ類錯誤率以及預期的受試者脫落和方案違背的比例等。主要評價指標的相關(guān)參數(shù)根據(jù)已有臨床數(shù)據(jù)和小樣本可行性試驗(如有)的結(jié)果來估算,需要在臨床試驗方案中明確這些估計值的確定依據(jù)。一般情況下,Ⅰ類錯誤概率α設定為雙側(cè)0.05或單側(cè)0.025,Ⅱ類錯誤概率β設定為不大于0.2,預期受試者脫落和方案違背的比例不大于0.2,申請人可根據(jù)產(chǎn)品特征和試驗設計的具體情形采用不同的取值,需充分論證其合理性。
七、醫(yī)療器械臨床試驗設計需考慮的其他因素
由于器械的固有特征可能影響其臨床試驗設計,在進行醫(yī)療器械臨床試驗設計時,需對以下因素予以考慮:
(一)器械的工作原理
器械的工作原理和作用機理可能與產(chǎn)品性能/安全性評價方法、臨床試驗設計是否恰當相關(guān)。
(二)使用者技術(shù)水平和培訓
部分器械可能需要對使用者進行技能培訓后才能被安全有效地使用,例如手術(shù)復雜的植入器械。在臨床試驗設計時,需考慮使用器械所必需的技能,研究者技能應能反映產(chǎn)品上市后在預期用途下的器械使用者的技能范圍。
(三)學習曲線
部分器械使用方法新穎,存在一定的學習曲線。當臨床試驗過程中學習曲線明顯時,試驗方案中需考慮在學習曲線時間內(nèi)收集的信息(例如明確定義哪些受試者是學習曲線時間段的一部分)以及在統(tǒng)計分析中報告這些結(jié)果。如果學習曲線陡峭,可能會影響產(chǎn)品說明書的相關(guān)內(nèi)容和用戶培訓需求。
(四)人為因素
在器械設計開發(fā)過程中,對器械使用相關(guān)的人為因素的研究可能會指導器械的設計或使用說明書的制定,以使其更安全,更有效,或讓受試者或醫(yī)學專業(yè)人士更容易使用。
八、醫(yī)療器械臨床試驗的統(tǒng)計分析
(一)分析數(shù)據(jù)集的定義
意向性分析(Intention To Treat,簡稱ITT)原則是指主要分析應包括所有隨機化的受試者,基于所有隨機化受試者的分析集通常被稱為ITT分析集。理論上需要對所有隨機化受試者進行完整隨訪,但實際中很難實現(xiàn)。
臨床試驗常用的分析數(shù)據(jù)集包括全分析集(Full Analysis Set,F(xiàn)AS)、符合方案集(Per Protocol Set,PPS)和安全性數(shù)據(jù)集(Safety Set,SS)。需根據(jù)臨床試驗目的,遵循盡可能減少試驗偏倚和防止Ⅰ類錯誤增加的原則,在臨床試驗方案中對上述數(shù)據(jù)集進行明確定義,規(guī)定不同數(shù)據(jù)集在有效性評價和安全性評價中的地位。全分析集為盡可能接近于包括所有隨機化的受試者的分析集,通常應包括所有入組且使用過一次器械/接受過一次治療的受試者,只有在非常有限的情形下才可剔除受試者,包括違反了重要的入組標準、入組后無任何觀察數(shù)據(jù)的情形。符合方案集是全分析集的子集,包括已接受方案中規(guī)定的治療、可獲得主要評價指標的觀察數(shù)據(jù)、對試驗方案沒有重大違背的受試者。若從全分析集和符合方案集中剔除受試者,一是需符合方案中的定義,二是需充分闡明剔除理由,需在盲態(tài)審核時闡明剔除理由。安全性數(shù)據(jù)集通常應包括所有入組且使用過一次器械/接受過一次治療并進行過安全性評價的受試者。
需同時在全分析集、符合方案集中對試驗結(jié)果進行統(tǒng)計分析。當二者結(jié)論一致時,可以增強試驗結(jié)果的可信度。當二者結(jié)論不一致時,應對差異進行充分的討論和解釋。如果符合方案集中排除的受試者比例過大,或者因排除受試者導致試驗結(jié)論的根本性變化(由全分析集中的試驗失敗變?yōu)榉戏桨讣械脑囼灣晒Γ?,將影響臨床試驗的可信度。
全分析集和符合方案集在優(yōu)效性試驗和等效性或非劣效性試驗中所起作用不同。一般來說,在優(yōu)效性試驗中,應采用全分析集作為主要分析集,因為它包含了依從性差的受試者而可能低估了療效,基于全分析集的分析結(jié)果是保守的。符合方案集顯示試驗器械按規(guī)定方案使用的效果,與上市后的療效比較,可能高估療效。在等效性或非劣效性試驗中,用全分析集所分析的結(jié)果并不一定保守。
(二)缺失值和離群值
缺失值(臨床試驗觀察指標的數(shù)據(jù)缺失)是醫(yī)療器械臨床試驗結(jié)果偏倚的潛在來源,在臨床試驗方案的制定和執(zhí)行過程中應采取充分的措施盡量減少數(shù)據(jù)缺失。對于缺失值的處理方法,特別是主要評價指標的缺失值,需根據(jù)具體情形,在方案中遵循保守原則規(guī)定恰當?shù)奶幚矸椒?,如末次觀察值結(jié)轉(zhuǎn)(Last Observation Carried Forward, LOCF)、基線觀察值結(jié)轉(zhuǎn)(Baseline Observation Carried Forward, BOCF)等。必要時,可考慮采用不同的缺失值處理方法進行敏感性分析。
不建議在統(tǒng)計分析中直接排除有缺失數(shù)據(jù)的受試者,因為該處理方式可能破壞入組的隨機性、破壞受試人群的代表性、降低研究的把握度、增加Ⅰ類錯誤率。
對于離群值的處理,需要同時從醫(yī)學和統(tǒng)計學兩方面考慮,尤其是醫(yī)學專業(yè)知識的判斷。離群值的處理應在盲態(tài)審核時進行,如果試驗方案中未預先規(guī)定處理方法,在實際資料分析時,需要進行敏感性分析,即比較包括和不包括離群值的兩種試驗結(jié)果,評估其對試驗結(jié)果的影響。
(三)統(tǒng)計分析方法
1.統(tǒng)計描述
人口學指標、基線數(shù)據(jù)一般需選擇合適的統(tǒng)計指標(如均數(shù)、標準差、中位數(shù)等)進行描述以比較組間的均衡性。
主要評價指標在進行統(tǒng)計推斷時,需同時進行統(tǒng)計描述。值得注意的是,組間差異無統(tǒng)計學意義不能得出兩組等效或非劣效的結(jié)論。
次要評價指標通常采用統(tǒng)計描述和差異檢驗進行統(tǒng)計分析。
2.假設檢驗和區(qū)間估計
在確定的檢驗水平(通常為雙側(cè)0.05)下,按照方案計算假設檢驗的檢驗統(tǒng)計量及其相應的P值,做出統(tǒng)計推斷,完成假設檢驗。對于非劣效性試驗,若P≤α,則無效假設被拒絕,可推斷試驗組非劣效于對照組。對于優(yōu)效性試驗,若P≤α,則無效假設被拒絕,可推斷試驗組臨床優(yōu)效于對照組。對于等效性試驗,若P1≤α和P2≤α同時成立,則兩個無效假設同時被拒絕,推斷試驗組與對照組等效。
亦可通過構(gòu)建主要評價指標組間差異置信區(qū)間的方法達到假設檢驗的目的,將置信區(qū)間的上限和/或下限與事先制定的界值進行比較,以做出臨床試驗結(jié)論。按照方案中確定的方法計算主要評價指標組間差異的(1-α)置信區(qū)間,α通常選取雙側(cè)0.05。對于高優(yōu)指標的非劣效性試驗,若置信區(qū)間下限大于-?(非劣效界值),可做出臨床非劣效結(jié)論。對于優(yōu)效性試驗,若置信區(qū)間下限大于?(優(yōu)效界值),可做出臨床優(yōu)效結(jié)論。對于等效性試驗,若置信區(qū)間的下限和上限在(-?,?)(等效界值的劣側(cè)和優(yōu)側(cè))范圍內(nèi),可做出臨床等效結(jié)論。對試驗結(jié)果進行統(tǒng)計推斷時,建議同時采用假設檢驗和區(qū)間估計方法。
3.基線分析
除試驗器械及相應治療方式外,主要評價指標常常受到受試者基線變量的影響,如疾病的分型和程度、主要評價指標的基線數(shù)據(jù)等。因此,在試驗方案中應識別可能對主要評價指標有重要影響的基線變量,在統(tǒng)計分析中將其作為協(xié)變量,采用恰當?shù)姆椒ǎㄈ鐓f(xié)方差分析方法等),對試驗結(jié)果進行校正,以修正試驗組和對照組間由于協(xié)變量不均衡而對試驗結(jié)果產(chǎn)生的影響。協(xié)變量的確定依據(jù)以及相應的校正方法的選擇理由應在臨床試驗方案中予以說明。對于沒有在臨床試驗方案中規(guī)定的協(xié)變量,通常不進行校正,或僅將校正后的結(jié)果作為參考。
4.中心效應
在多個中心開展臨床試驗,可在較短時間內(nèi)入選所需的病例數(shù),且樣本更具有代表性,結(jié)果更具有推廣性,但對試驗結(jié)果的影響因素更為復雜。
在多個中心開展臨床試驗,需要組織制定標準操作規(guī)程,組織對參與臨床試驗的所有研究者進行臨床試驗方案和試驗用醫(yī)療器械使用和維護的培訓,以確保在臨床試驗方案執(zhí)行、試驗器械使用方面的一致性。當主要評價指標易受主觀影響時,建議采取相關(guān)措施(如對研究者開展培訓后進行一致性評估,采用獨立評價中心,選擇背對背評價方式等)以保障評價標準的一致性。盡管采取了相關(guān)質(zhì)量控制措施,在多中心臨床試驗中,仍可能出現(xiàn)因不同中心在受試者基線特征、臨床實踐(如手術(shù)技術(shù)、評價經(jīng)驗)等方面存在差異,導致不同中心間的效應不盡相同。當中心與處理組間可能存在交互作用時,需在臨床試驗方案中預先規(guī)定中心效應的分析策略。當中心數(shù)量較多且各中心病例數(shù)較少時,一般無需考慮中心效應。
在多個中心開展臨床試驗,各中心試驗組和對照組病例數(shù)的比例需與總樣本的比例基本相同。當中心數(shù)量較少時,建議按中心進行分層設計,使各中心試驗組與對照組病例數(shù)的比例基本相同。
九、醫(yī)療器械臨床試驗的偏倚和隨機誤差
臨床試驗設計需考慮偏倚和隨機誤差。偏倚是偏離真值的系統(tǒng)誤差的簡稱,在試驗設計、試驗實施和數(shù)據(jù)分析過程中均可引入偏倚,偏倚可導致錯誤的試驗結(jié)論。臨床試驗設計時應盡量避免或減少偏倚。
統(tǒng)計量的隨機誤差受臨床試驗樣本量的影響。一方面,較大的樣本量可提供更多的數(shù)據(jù),使器械性能/安全性評價的隨機誤差更小。另一方面,更大的樣本量可能引入更大的偏倚,導致無臨床意義的差異變得具有統(tǒng)計學意義。試驗設計應該旨在使試驗結(jié)果同時具有臨床和統(tǒng)計學意義。