马上注册,阅读更多内容,享用更多功能!
您需要 登录 才可以下载或查看,没有账号?立即注册
×
杨学宁 吴一龙
肿瘤治疗后进行疗效评价是临床医师决定病人是否继续治疗或研究者决定研究项目(如临床试验)是否值得继续进行的重要依据。虽然循证医学强调终点(endpoint)指标的重要性,但替代终点(surrogateendpoint)指标仍是肿瘤临床或研究中做出决策最常用的依据。通过对终点/替代终点指标的检测并予以临床验证,逐步形成了目前我们大量的使用的各种“标准”。这些标准的使用促进了临床试验的发展,增强了学术交流。同时,这些标准本身也与时俱进,随着自身和其他学科的发展不断修订,以适应和促进临床医学的发展。 实体瘤治疗疗效评价标准的发展已有近40年的历史,它的发展也体现了这一过程。2000年,Therasse等[1]发表了新的实体瘤治疗疗效评价方法——RECIST(Response Evaluation CriteriaIn Solid Tumors),目前RECIST已替代原来采用的WHO标准成为国际肿瘤界釆用的标准,国际上新的临床试验均已采用RECIST评价疗效。
1. 实体瘤疗效的评价标准的发展
1960年代,美国国家卫生研究院(NIH)癌症研究组根据大量临床试验的经验制定了一系列临床试验的标准,从而大大促进了临床肿瘤学各学科的发展[2]。 这些标准中最重要的一个就是实体瘤治疗疗效评价标准。当时的标准对如何肿瘤进行测量达成了共识,主要通过观察治疗前后肿瘤的大小来作为评价疗效的依据,但同时也运用针对疗效有关的临床症状来评价疗效。该标准规定缓解(positive response)为定义为:肿瘤总体积缩小,且同时无任何一个肿瘤增大,亦无新肿瘤出现,或医疗组观察到病人症状有改善并评价药物的副作用后认为治疗对病人整体有益。同时还规定,缓解期间的必须连续两次测量肿瘤都维持同样大小或缩小才能定义为开始缓解,连续两次测量肿瘤都增大时缓解结束。为了减少人为因素,建议尽量由同一位医护人员测量肿瘤的大小。在重新评价时,肺部肿瘤每两周检查X线一次,且肺部肿瘤测量需在开始治疗三天之内完成。对不同的肿瘤有一定的特殊规定。 1976年,Moertel及Hanley[3]的研究发现原有标准的测量方法在影像学诊断技术进步的情形下已经落后,需要新的标准跟上时代发展的步伐。世界卫生组织(World Health Organization,WHO)因此召开了两次的国际性会议,随后于1981年发表了新的修订的评价标准[4](见表1)。新的疗效评价标准对疗效的定义做了一些修正,其中最主要是测量方法确定为二维测量法(或称双径测量法,bidimensional) (见图1和表2)。此后,WHO标准成为过去20年间肿瘤界所遵循的疗效评价标准。
表1 WHO实体瘤治疗疗效评价标准(1981年) 疗效/病灶类型 | | | | | | | | | 肿瘤缩小50%以上: ⑴单个肿瘤面积:肿瘤最长径和其最大垂直径之乘积; ⑵多个肿瘤面积:多个肿瘤面积的之和 | | | | | | | | | | |
注意:WHO(1981)标准规定确认疗效需在4周后确认。 CR:完全缓解,complete response; PR:部分缓解,partial response; SD:疾病稳定,stable disease; NC:稳定,no change;PD:疾病进展,progressivedisease。
WHO标准亦有不少缺陷。1985年,Warr等[5]的研究发现临床试验疗效评价的偏倚有5% ~ 10 %是因为WHO标准对定义上的模糊和肿瘤测量的误差造成的。在临床试验亦发现不同的研究组对于可测量病变和可评价病变的疗效评价有不同的解释,对于判断为PD时应记录的最小病变大小及病变数目也有不同的规定。这显然会降低临床试验中结果的可比性,从而影响结论的可靠性。近年来,CT和MRI等先进影像学诊断设备在临床中的应用已渐成为常规,但如何应用CR、MRI等三维测量手段进行疗效评价的标准尚未确立,这使以上问题显得更加突出。 为了简化测量的步骤,提高准确性,James等[6]在1999年提出了以肿瘤最长径的长度代替面积来代表肿瘤大小的一维测量法(或称单径测量法,unidimensional)(见图2)。James等以一维测量法与二维测量法测量法来评价八个临床试验中569位肿瘤患者的疗效,结果显示,一维测量法是方法简单且疗效判断更确切的方法。根据新的研究结果,EORTC(European Organization forResearch and Treatment of Cancer)、美国国立癌症研究所(NationalCancer Institute,NCI)和加拿大NCI在WHO标准的基础上进行了必要的修改和补充并于2000年正式发表了RECIST[1]。目前,这一标准也得到了美国食品和药物管理局(FDA)的支持。 目前以带瘤生存或提高生存质量为目的研制的新药不断出现,但仍然采用肿瘤缩小作为疗效评价的主要替代终点,以肿瘤大小的客观改变为依据评价实体瘤的疗效。这主要是为了对今后的新疗法也能进行恰如其分的评价和比较,新标准需要与原标准保持一定的连续性。 虽然主要医疗机构都拥有对肿瘤大小进行精确测量的技术手段,但RECIST却釆用了更为简易的一维测量法。这么做的主要原因是作为疗效评价的标准,测量方法的标准化和简单化方面比测量结果的准确性更为重要。虽然测量方法简单,但仍保持与WHO标准评价结果相似(见表3)[6,7]。 针对WHO标准的缺陷,RECIST包括了一系列的有关肿瘤测量的指引和选择测量的标准以作为临床医师进行肿瘤测量时的参考依据。对应记录的最小病变的大小、目标病灶总数的限制和脏器限制等均有详细的规定,并注意避免WHO标准过分评价为PD的倾向。另外,最佳总疗效的评价中新增了一个评价指标-症状恶化(Symptomatic Deterioration)。临床研究发现某些患者治疗后病灶虽然无变化或缩小未达到CR/PR标准,但患者的生存期和生存质量均有所提高,而WHO标准却未能体现这一情况。在RECIST中,增加了无疾病进展生存期(progressionfree survival,PFS)和疾病进展时间(time to progression,TTP)这2个重要的指标来体现。 肿瘤标记(Tumor markers)虽然未能成为RECIST评价疗效的主要依据,但已在RECIST中有所体现。由于缺乏足够的证据,新技术如肿瘤标记和正电子发射断层扫描(positronemission tomography,PET)等仍需要更多的临床研究验证才能成为新测量方法。我们期望能够在未来找到较肿瘤最长径更好的指标,从而制定出更优的疗效评价标准。
表2 WHO和RECIST对肿瘤测量的定义和疗效评价的标准 | | | | 二维测量法 肿瘤两个最大垂直径乘积,肿瘤以面积来测量 | 一维测量法 肿瘤最长径的总和,肿瘤以(总)长度来测量 | | | | | | | | | | | | | |
图1 二维测量法(双径测量)
图2 一维测量法(单径测量)
表3 肿瘤的直径(RECIST)、面积(WHO标准)和体积的关系[1] 注:加阴影部分表示分别满足RECIST和WHO标准中关于PR和PD的定义。
2. 肿瘤病灶的测量标准
2. 1. 肿瘤病灶的分类肿瘤病灶可分为可测量病灶 (measurable,) 及不可测量的 (nonmeasurable) 病灶两种。WHO标准中的“不可评价病变(nonevaluable)”一词不再采用。
2. 1. 1 可测量病灶用常规技术,病灶直径长度≥20 mm或螺旋CT≥10 mm的至少在一个径向上可以精确测量的病灶。但对于可测量病灶经治疗后缩小,则未规定最小的测量标准。另外,总是测量病灶的最长径,无论是否与初次测量时处于不同轴线。 2. 1. 2 不可测量病灶除可测量病灶外的所有其它病变:包括小于可测量病灶所规定的大小的病灶(即常规技术长径<20 mm或螺旋CT<10mm)、骨病灶、脑膜病变、腹腔积液、胸腔积液、心包积液、炎症性乳腺癌、皮肤或肺的癌性淋巴管炎、影像学不能证实和评价的腹部肿块和囊性病灶。另外,肿瘤位于既往的放射治疗照射野内时,有时也不适合测量。以上不可测量的病灶应在临床试验计划书内详细规定。对于小的孤立病灶需组织病理学证实。
2. 2. 肿瘤病灶的测量方法Therasse等[1]比较了肿瘤最长径、肿瘤面积与肿瘤体积的关系 (见表3)。在肿瘤缓解时,减少面积在50%以上时,如以最长径(直径)测量则减少30%;在肿瘤进展时,肿瘤面积增加25%仅相当于最长径增加20 %。必须强调的是,治疗开始前的基线测量和疗效评价均应用同样的技术和方法评估病灶,并应以X线、CT和MRI等可重复性强、资料易于保存(如影像学胶片等)的测量方法进行测量。 2.2.1. 特殊病灶的测量2.2.1. 临床表浅病灶的测量只有可扪及的临床表浅病灶才能作为可测量病灶,如皮肤结节及浅淋巴结。可以拍摄照片(建议拍彩色照片)作为依据,为了正确测量和具有可比性,拍摄时应有标尺在旁测量病灶长径。 2.2.2. 一个病灶分裂成两个/或两个以上病灶的测量一个病灶分裂成两个/或两个以上病灶时,应分别测量分裂出的每个病灶的最长径,然后将所有这些病灶的最长径相加,按一个病灶报告,并在报告中注明是分裂病灶。 2.2.3. 两个或多个病灶融合成一个病灶的测量两个或多个病灶融合成一个病灶时,应测量融合病灶的最长径,并作为最长径的总和记录。 2.2.4. 不规则病灶的测量对于不规则病灶,应测量病灶2个最远点的距离,但这条线内不应穿过肿瘤外。 2.2.2. 胸部X线片只有周边清晰明确的肺部病灶才能作为可测量病灶。由于胸部X线片易受呼吸状态的改变的影响,因此推荐CT,胸部CT较胸部X线片更加准确。 2.2.3. 计算机断层扫描 (CT) 及 磁共振成像(MRI)对于判断可测量的目标病灶评价疗效,CT和MRI是目前最可靠的方法。对于胸、腹和盆腔,CT和MRI应以10mm或更薄层扫描,螺旋CT则建议用5mm薄层扫描。头颈部及特殊部位的扫描则需用特殊方案。 2.2.4. 超声波检查超声波检查是一种普及的影像学诊断手段,可用于测量体表或表浅的可扪及的病变(如淋巴结、皮下结节和甲状腺结节)。但不宜用于测量体内病灶,因为超声波检查易受操作者的技能等因素影响,同时还存在测量部位重复性差和易受体内气体(如肠腔内气体) 等主客观因素影响。 2.2.5. 内窥镜 (Endoscopy) 及腹腔镜(laparoscopy)以内镜检查方法测量肿瘤大小评价客观肿瘤疗效的方法很少被应用。因为内镜检查操作复杂,具有一定的创伤性,多让患者难以接受。仅用于需要活检证实肿瘤缓解的病灶或有特殊要求的研究。 2.2.6. 肿瘤标记对于多数肿瘤来说,肿瘤标记不能单独用于评价肿瘤治疗后是否缓解。但如治疗前肿瘤标记已高于正常水平,则在肿瘤缓解的同时需肿瘤标记恢复到正常范围才能评价为CR。肿瘤标记水平升高的同时应伴有可见病灶进展才能评价为PD。前列腺癌特异性的肿瘤标记PSA的应用仍在研究中。 2.2.7. 细胞学及组织学检查细胞学或组织学在少数情况下可用于确认CR或PR,区分治疗后的良性病变还是残存的恶性病变。对于体内肿瘤,可釆用细针穿刺法获得细胞学或组织学诊断。而体腔内积液的细胞学检查亦可用于评价肿瘤治疗疗效。
2. 3. 肿瘤缓解的评价2.3.1 肿瘤病灶的基线测量在开始治疗前,应对肿瘤病灶进行基线测量,以确定基线肿瘤负荷和可测量病灶。基线测量应尽可能接近治疗开始的时间。基线测量应至少有一个可以按传统方法测量的肿瘤(最长径 ≥ 20 mm的肿瘤,如以螺旋CT测量,则需 ≥ 10 mm)。所有测量均应使用国际标准测量工具(如米制量尺或圆规等)测量,并以最靠近治疗前的测量来做起点,两次测量不应超过四周。 2.3.1.1. 可测量的目标病灶应根据病灶最长径大小、能否长期随诊和是否易于准确重复测量评估等来确定目标(target) 病灶。目标病灶应包括所有累及的器官,每个脏器最多5个目标病灶,全部目标病灶总数不超过10个,最后以所有目标病灶最长径的总和作为肿瘤疗效评价的基线。 RECIST中可选择达到10个目标病灶的规定让临床医师感到难以操作,而且大大地增加了工作量。不过RECIST的这一规定主要是针对有关新药的早期临床发展阶段的,而对于Ⅲ期临床试验或我们的日常临床实践来说,在研究的主要终点不是治疗的缓解率这样的替代终点,可以每个受侵犯脏器只选一个目标病灶。 2.3.1.2. 非目标病灶目标病灶以外的所有其它病灶称为非目标病灶,包括所有不可测量病灶和未被选为目标病灶的其他可测量病灶。对于非目标病灶也应予记录,但不需测量。在进行肿瘤治疗疗效评价时应记录其是否存在或消失。 2.3.2 缓解的标准。2.3.2.1. 目标病灶的评价:对所有随诊和重新评价的病灶测量后归纳评价: CR:所有目标病灶消失,无新病灶出现,肿瘤标记下降至正常,并维持4周。 PR:所有(一个或多个)基线目标病灶最长径总和减少≥30%,并维持4周。 SD:所有基线目标病灶最长径总和缩小但未达PR,或增大但未达PD。 PD:较已记录到的最小目标病灶最长径总和增大≥20%,或出现一个或多个新病灶。 注意:如果仅有一个目标病灶的最长径增大≥20 %,而已记录到的最小目标病灶最长径总和增大未达20%,则不应评价为PD。 2.3.2.2. 非目标病灶的评价:非目标病灶的评价可作参考,但由于往往会存在一定的争议,在存在争议的情况下,不列入主要肿瘤评价(如为临床试验,则应提交研究相关组织重新评价)。 CR:所有非目标病灶消失和肿瘤标记水平恢复正常。 未达完全缓解(incompleteresponse)/SD:一个或多个非目标病灶和/或肿瘤标记高于正常并持续存在。 PD:出现一个或多个新病灶和/或存在非目标病灶明显的进展。 2.3.2.3. 对新病灶的评价:在RECIST中未对新病灶是否应为可测量病灶才能用于评价疗效作出明确的规定。 2.3.2.4. 可测量目标病灶在治疗期间变成不可测量病灶时的疗效评价对于这种情况RECIST亦无明确的规定。由于肿瘤越小,当肿瘤增大时,只要病灶最长径很小的变化即可导致其百分比较大的增大(例子见表4),从而影响到疗效的评价,因此目前有争议。在以下的例子中,第2周期化疗后的目标病灶最长径的总和较第1周期增加了30%(而在最长径总和的绝对值只是增大了4mm!),虽然这种情况较为少见,但随着螺旋CT的广泛应用这方面的争论可能增加。解决方法包括:如为临床试验则应提交研究相关组织重新评价;临床中可将CT扫描的结果定义为不确切,并继续治疗并在4周重新评价,如果能够确认为进展,则应该将初次怀疑为PD的时间记录为出现PD的时间。 表4 可测量目标病灶在治疗期间变成不可测量病灶的例子
2.3.3 最佳总疗效(best overall response)最佳总疗效是指从治疗开始直至疾病进展/复发时所记录到的最小测量值(以记录到的最小测量值作为确认疾病进展的参考值)(见表5),是经确认的最佳疗效。 1. 症状恶化 (Symptomaticdeterioration): 患者因全身情况恶化而需要停止治疗,但无明显的PD证据,停止治疗后仍应进行随诊及测量以详细记录肿瘤客观进展情况。 2. 早期进展,或早期死亡,或不能评价(inevaluability)的定义不同临床试验而有不同的规定,应在临床试验计划书中详细规定。 3. 在某些情况下,因难以区分残留的病变是肿瘤还是正常组织,从而影响疗效评价是CR时,在4周后确认疗效前,建议做细针穿刺/活检以明确病灶性质。
表5 最佳总疗效的评价[1] 2.3.4 肿瘤重新评价的频率肿瘤重新评价的频率应依临床治疗计划的需要并和治疗的目的和程序而定。在Ⅱ期临床试验中,因疗效待定,故重新评价的频率较合理为每2周期(6-8周)重新评价一次。亦可根据化疗方案和特殊的情况调整重新评价间隔的长短。 完成治疗计划后,是否需要重复评价肿瘤则依研究的终点(End points)是缓解率还是出现事件的时间(Timeto event,TTE) (如疾病进展或死亡) 而定。如研究的终点是TTE,则在治疗结束后定期评价是必要的,两次评价间隔时间通常是治疗中评价间隔的两倍,但并没有严格的规定。
2. 4. 确认(confirmation)测量/缓解期2.4.1 确认测量确认客观缓解(objectiveresponse,OR)的目的为了避免过高估计缓解率(responserate,RR),这对于以缓解率为主要终点的非随机Ⅱ期临床试验尤为重要。CR、PR肿瘤变化的测量需反复判断证实,治疗后出现CR、PR者应每四周测量肿瘤的大小以重新评价以确认疗效。治疗后首次评价为SD者亦至少应每6 ~ 8周重新评价一次。对于以无进展生存(Progression-free survival,PFS)和总生存期(Overall survival,OS)为终点的临床研究则可按试验方案决定肿瘤测量和评价的间隔。 2.4.2总缓解期(Duration of Overall Response)是指从治疗后经测量首次评价为CR或PR时直至经测量评价为疾病复发或进展的时间。但请注意,CR或PR应在首次评价为CR或PR的4周后确认才能被认为是有效的。 2.4.3 疾病稳定期(Duration of Stable Disease)是指从治疗开始到评价为疾病进展时的这段时间。在临床上,疾病稳定期可因不同的肿瘤类型、不同的分化程度而变化。 2.4.4 无疾病进展生存期和疾病进展时间RECIST仍以客观缓解率(OR)为主要的疗效评价指标。然而,在脑肿瘤或非细胞毒性抗癌药物的研究中,以OR评价疗效可能并非评价新的药物或方案的抗肿瘤活性的最优方法。在此情况下,无疾病进展生存期(progressionfree survival,PFS)和疾病进展时间(time to progression,TTP)用以初步评价非细胞毒作用机制的生物药物的疗效是有价值的。在应用PFS或TTP评价疗效的无对照组的临床试验中,应在临床试验计划书中明确说明在未见到明确治疗效果时PFS和TTP如何测量和评价(包括如何定义疾病恶化,如何防止偏倚等)。 2.4.5 随诊频率缓解期、稳定期以及PFS受基线评价后随诊(follow-up)频率的影响,而疾病类型、分期、治疗周期及临床实践等多种因素亦会影响随诊频率。在制定随诊频率时,需要考虑以上因素的影响。因此RECIST中并未规定基本的随诊频率,虽然这在一定程度上会影响临床试验终点测量的准确度。 基于以上因素,在进行不同临床试验对比时应考虑到随诊频率这一因素。根据研究所期望的临床获益,临床试验设计时亦应明确定义确定SD的2次测量的最小间隔。 2. 4. 6. 疗效的再评价对于临床试验,尤其是以缓解率为主要研究终点者,所有结果均应同时接受研究以外的独立专家委员会审查。独立专家委员会将依据RECIST所制定的标准审查病人的病历记录及所有的测量结果,RECIST推荐同时审查病历及影像学资料。
2. 5. 报告结果根据意向性处理原则(Intent to treatment,ITT),进入临床试验的所有病人(包括未按治疗方案接受治疗的病人或入组后判定为不合格的病人)均应评价治疗的疗效。 每一个病人都应必须按如下分类: (1) CR;(2) PR;(3) SD;(4)PD; (5) 死于肿瘤;(6)死于药物毒性;(7) 死于其它原因; (9) 不明(无足够资料进行评价)。 当主要的指标是肿瘤缓解率时,所有符合入组标准的病人都应包括在分析中。4至9项(包括PD和所有死亡,4至9项的分类标准,应在临床试验计划书中明确说明)均评价为治疗失败。所有的分析结论均应基于所有符合入组标准病人的资料。 在对病人的不同亚群进行分析时,可以排除死于其他原因,中断治疗或违反治疗计划的病人,但必须必须明确亚组分析得出的治疗疗效的结论是有其局限性的,同时应明确报告排除病人在分析之外的理由。对于分析的结果应同时提供95%置信区间(confidence interval,CI)。
3. 结语RECIST作为肿瘤测量和评价的最新标准,更强调直接、易重复和追踪。同时,针对近二十年来肿瘤治疗进展缓慢的困境,增加了有关替代指标(包括TTP、PFS、肿瘤标记等)的概念,以更加全面客观地评价肿瘤的治疗。 RECIST可以简要概括如下:以肿瘤最长径(需≥20mm)为测量基线。治疗后,肿瘤最长径缩小≤30 %为PR,增大≥20 %则为PD。 RECIST的制定主要是应用于非随机Ⅱ期药物研究,亦可应用于Ⅲ期随机对照研究。当然如此严格的标准难以全面地应用。 目前RECIST已在国际肿瘤界得到广泛釆用。但国内多数单位至今仍在使用WHO标准。为了与国际接轨,加强与国际交流,建议国内肿瘤界应尽快转向以RECIST对肿瘤进行测量和评价的体系。
本文全文发表于《循证医学》杂志: 杨学宁,吴一龙;实体瘤治疗疗效评价标准——RECIST[J];循证医学;2004年02期
参考文献[1] Therasse P, Arbuck SG, Eisenhauer EA, Wanders J,Kaplan RS, Rubinstein L, Verweij J, Van Glabbeke M, Van Oosterom AT, ChristianMC, Gwyther SG. New guidelines to evaluate the response to treatment in solidtumors. JNCI 2000; 92: 205-216. [2] Zubrod CG, Schneiderman SM, Frei E. III,Brindley C, Gold GL, Schnider B et al. Appraisal of methods for the study ofchemotherapy of cancer in man: Comparative therapeutic trial of nitrogenmustard and thiophosphamide. J. Chronic Dis. 1960; 11:7-33. [3] Moertel CG and Hanley JA: The effect ofmeasuring error on the results of therapeutic trials in advanced cancer. Cancer1976; 38:388-394. [4] Miller AB, Hoogstraten B, Staquet M. and WinklerA: Reporting results of cancer treatment. Cancer 1981; 47:207-214. [5] Warr D, McKinney S, Tannock I. Influence ofmeasurement error on response rates, Cancer Treat Reg. 1985; 69:1127-1130. [6] James K, Eisenhauer E, Christian M, TerenzianiM, Vera D, Mudal Am et al. Measuring response in solid tumors: Unidimensionalversus bidimensional measurement. JNCI 1999; 91: 523-528. [7] 陈智伟,廖美琳,陈玉蓉, 等. WHO标准和RECIST标准评价肺癌化疗疗效的比较.循证医学,2004,4(2)
|