查看更多
密码过期或已经不安全,请修改密码
修改密码壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
摘 要:建立对原发性肝癌(PLC)患者精确放疗后乙肝病毒(HBV)再激活的分类预测模型可以提前进行预防治疗,减少发病率。采用山东省肿瘤医院的90例原发性肝癌患者放疗后的临床指标作为研究数据。每例患者的检查记录都包括:性别、年龄、KPS评分、AFP、HBV DNA水平、TNM等30个特征。提出用顺序特征选择进行关键特征的选取,将选取的特征组成新的特征子集,并建立贝叶斯分类预测模型。顺序后向选择发现KPS评分、HBV DNA水平、外放边界、TNM、全肝最大剂量是乙肝病毒再激活的危险因素,建立贝叶斯分类模型,结果采用3折交叉验证,预测精度达到85.75%。顺序前向选择发现性别、KPS评分、HBV DNA水平、HBe Ag、外放边界两分类编码是乙肝病毒再激活的危险因素,5折交叉验证下的贝叶斯分类预测精度达到84.06%。实验结果表明,贝叶斯分类器可以很好地用于乙肝病毒再激活的研究,特征选择后的关键特征具有更优越的分类性能。
关键词:乙肝病毒(HBV)再激活;顺序特征选择;贝叶斯分类器
引言
原发性肝癌(PLC)是中国一种常见的疾病,肝癌病人多发于东南沿海地区,肝癌患者接受放疗治疗后,HBV再激活是一种最常见的并发症。黄伟等人在69例原发性肝癌患者接受精确放疗后致使乙型肝炎病毒再激活研究中发现,基线血清HBV DNA水平和放疗剂量是HBV病毒再激活的独立危险因素[1-2]。张晶晶等人提出,肝功能Child-Pugh分级、HBV DNA水平、肿瘤分期是原发性肝癌患者接受三维适形放疗(3D-CRT)后致乙型肝炎病毒(HBV)再激活的危险因素[3-4]。文献[5]用t检验和logistic提取关键特征发现,外放边界、肿瘤分期TNM和HBV DNA水平是HBV再激活的危险因素,建立BP神经网络乙肝病毒再激活的分类模型,识别率达到78.89%,文献[6]建立了支持向量机(SVM)分类模型,识别率也达到78.89%。吴冠朋在以前发现的危险因素的基础上随后又建立了RBF神经网络模型,识别率提高到80%[7]。随后在文献[8-9]中通过遗传算法发现,HBV DNA水平,肿瘤分期TNM,Child-Pugh,外放边界,外放边界编码,V45和全肝最大剂量是乙肝病毒再激活的危险因素,通过建立SVM分类模型,预测精度大刀83.34%。
综上所述,原发性肝癌患者接受适形放疗后乙肝病毒再激活的危险因素并非单一的,要发现更多的危险因素仍有待进一步研究。
分类数据中会有很多不相关的特征,这些冗余的特征会降低分类的精度。特征选择可以降低数据的维度,本研究采用序列选择选出最优特征,组成最优特征子集,然后创建贝叶斯分类模型进行分类预测。
1 数据与方法
1.1 数据
选取山东省肿瘤医院采集的90例经过精确放疗后原发性肝癌患者的临床资料作为研究样本,每个样本包含性别、KPS评分、AFP水平、外放边界、HBV DNA水平、外放边界编码、放疗剂量等30个特征,组成90×30维大小的数据集。其中20例是精确放疗后发生HBV再激活的患者,70例是没有发生HBV再激活的患者。
特征选择又称特征空间的降维,是从原始数据中选出一些最有效和最具代表性的特征子集,消除冗余特征,降低空间维度,简化数据。本研究采用顺序前向和顺序后向选择方法分别进行特征选择,找出致使乙肝病毒再激活的危险因素,组成新的特征子集,送入贝叶斯分类器进行分类预测。目前序列特征选择已广泛应用于基因微阵列[10-11]、蛋白质质谱分析[12]、肝脏计算机辅助系统[13]、疾病诊断[14]等方面。
2.1特征选择
顺序前向选择采用自下而上的启发式搜索准则,每次从未被选择的特征中选择一个特征,使它与已选入的特征组成特征子集,成为可以精确分类预测的最优特征子集。顺序后向选择是一种简单的自上而下的启发式搜索方法,从所有特征中每次剔除一个无关的特征,保留最优特征,最后组成关键特征子集[15]。本研究两种算法都采用Mahalanobis距离作为特征评估函数,有J(g)=∑mi=1J(gi)(1)式中,m代表特征个数,假设共有(i=1,2,…,m)个特征,本研究中m=30,共有30个特征,代表特征的Mahalanobis距离。
顺序前向选择首先将所需的特征集合初始化为空集G=φ;然后计算未选特征与已选特征子集之间的马氏距离,将马氏距离最大的特征(设已选入k,0≤k≤30个特征,记为Gk,把未选入的30-k个特征逐个与已选入的特征Gk组合后计算J值,若J(Gk+g1)≥J(Gk+g2)≥…≥J(Gk+g(n-k))则(加入g1)加入候选特征子集,G=G∪{gi},计算新的未选特征与已选特征子集之间的马氏距离;最后返回第二步,直到没有符合添加条件的特征或达到规定的搜索条件时结束。
顺序后向选择首先将所有的特征作为初始集合G={g1,g2,…,gi}(这里i=30);然后从未被剔除的特征集合中选择一个Mahalanobis距离最大的特征(假设已剔除r,0≤r<30个特征,剩下的特征组记为Gp,其中p=30-r,将中的各个特征(p=1,2,…,30-r)逐个剔除,并计算J(Gp-gp),若:J(Gp-g1)≥J(Gp-g2)≥…≥J(Gp-gp),则这次循环中g1的马氏距离最大=剔除,即G=G-{gi},计算剩下特征子集G的Mahalanobis距离;最后返回第二步直到没有符合剔除条件的特征或达到规定的搜索条件结束。
1.2构建贝叶斯预测模型
贝叶斯模型1988年由Pearl提出的,基于概率推理的数学模型,是目前不确定知识表达和推理领域最有效的理论模型之一[16]。广泛应用于图像处理[17],自然语言处理[18]等方面。
假设对于有k个类别的多分类问题,类别表示为,i=1,2,…,k,就本文而言,共有2个类别即k=2,w1表示乙肝病毒再激活,w2表示乙肝病毒不激活。其中一个待分类的目标由一组特征值x(i)来表示,i=1,2,…,n,本文每个样本都有30个特征,n取值为30,即构成的一个30维特征向量x=(x(1),x(2),…,x(30)),并且每一个待分类的目标只属于两类中的一类,则贝叶斯公式可以表示为P(wix)==P(x wi)P(wi)∑ki=1p(x wi)P(wi)(2)式中,P(w1)为乙肝病毒再激活的先验概率,P(w2)未激活的先验概率,类条件概率密度函数P(x|w1)是指在乙肝病毒再激活的特征空间中出现特征的概率密度,类条件概率密度函数P(x|w2)是指在乙肝病毒未激活的特征空间中出现特征的概率密度。
P(w1|x)是x属于乙肝病毒再激活的后验概率,P(w2|x)是属于乙肝病毒未激活的后验概率,这个概率可以作为分类对象的依据。采用最小错误率的贝叶斯决策对乙肝病毒再激活进行分类预测,在特征下想要正确归类,需要通过比较判别函数来确定。选取默认的一般线性判别函数,有d(x)=w1x1+w2x2+…+wnxn(3)在式(3)中,n的取值依然是30,本研究是2分类问题,故有2个判别函数,相应的把x代入2个判别函数中比较,看哪个判别函数大,就把x归为哪一类。大多数情况下,类条件概率密度采用多维变量的正态密度函数来模拟,多维正态密度函数为P(x wi)={ln1(2Π)nSi12exp-12(x-μi)TS-1i(x-μi[]})(4)式中,n代表30个特征,i=2代表文中的两分类问题,S1代表乙肝病毒再激活类的均值向量,代表未激活类的均值向量,代表乙肝病毒再激活类的协方差矩阵,S2代表未激活类的协方差矩阵。
此时正态分布的贝叶斯分类器判别函数为hi(x)=P(x wi)P(wi)=-12(x-μi)T×S-1i(x-μi)-n2ln2Π-12ln Si+ln P(wi)(5)将需要分类的向量输入就可求得在每个类别下的后验概率,概率最大的即为所属的类别。
1.3 k折交叉验证
本研究实验结果采用k折交叉验证,将总样本S分成k份不同的子集,每份样本个数为S/k,若k=10,即把所有数据分成10份,其中HBV再激活与HBV未激活的数据也相应地划分相同的份数,其中HBV再激活的共有20例,未激活有70例。划分后每组分别为2例,7例。然后随机组合成10组,其中的每一组都会作为测试集被调用一次,余下的k-1份作为训练集。最后的预测结果为x珋=1k∑ki=1xi(6)式中,xi代表10折交叉验证中第1,2,…,10次的结果,x珋为10折交叉验证的最终结果。
交叉验证下,k组数据中的每一组数据中,HBV再激活与未再激活的样本数比例接近总样本集的比例分布为2∶7。将程序循环运行50次,每次都采用k折交叉验证,取50次循环运行结果的平均值得到最终的预测精度、特异性和灵敏性。文中采用采用3折、5折、10折交叉验证。
2 结果
使用上述方法进行实验,实验结果如下。
对原始数据采用不同的交叉验证时,其预测精度、特异性和灵敏性有所不同,但影响不大,由此可以得出结论:总样本数据特征分布均匀,数据具有稳定性。
采用顺序前向方法选出性别、KPS评分、HBV DNA水平、HBeAg(HBeAg是乙肝E抗原,分为阴性和阳性,HBeAg为阴性时乙肝病毒不活跃或不复制,HBeAg为阳性时具有较强的传染性,病毒复制活跃)、外放边界两分类编码5个特征时预测精度达到83%以上,比原始数据集的预测精度高十几个百分点,灵敏性特异性也较原始数据大幅度提升。
采用顺序后向方法选出KPS评分、HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量5个特征为乙肝病毒再激活的危险因素,将这些危险因素组成特征子集,送入贝叶斯网络采用3折交叉验证实验结果显示,预测精度可以达到85%以上。
在前向和后向方法确定的危险因素有交集但不尽相同时,采用两者的并集:性别、HBeAg、外放边界两分类编码、KPS评分、HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量作为总的危险因素,并通过主成分分析法(PCA)验证8个特征是否有冗余信息。
当选取第一主成分时,预测精度为77.79%,贡献率86.41%,选取两个主成分时,贡献率高达97.14%,但预测精度不高。一般在实验时取到贡献率高出95%以上就不再取下面的主成分,但是本实验结果可以看出,第二个主成分之后再取的主成分并非大家所说的噪声,相反取了这些主成分之后的预测精度较第一第二个主成分的预测精度明显提高5,6个百分点,由此可以看出,这8个特征都是影响乙肝病毒激活与否的危险因素,并没有信息的冗余。
3 讨论与结论
原始数据集下的分类预测精度、特异性和灵敏性都是最低的,最高预测精度达到71.42%。顺序前向选择和顺序后向选择相比,提取的关键特征有所不同,其实验结果也不相同。顺序后向选择下预测精度最高可达85.75%,特异性为53.96%,灵敏性为94.82%,整体水平较高。顺序后向选择特征提取下的预测精度、特异性普遍比顺序前向结果要高,灵敏性相差不大,一般平衡在94%左右,没有显著变化。
在最近几年肝癌患者精确放疗后乙肝病毒再激活的研究中,文献[19]中发现HBV DNA水平是乙肝病毒再激活的危险因素,文献[2-3]中发现HBV DNA水平、放疗剂量是乙肝病毒再激活的危险因素,文献[9]中发现HBV DNA水平、肿瘤分期TNM、Child-Pugh、外放边界、全肝最大剂量是乙肝病毒再激活的危险因素,通过建立SVM分类模型,预测精度达到83.34%。本研究通过顺序后向选择发现,KPS评分、HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量是致使乙肝病毒再激活的危险因素,通过建立贝叶斯分类模型,预测精度达到85.75%,比上述论文中的预测精度提高了2个百分点。在上述文献中可以看出,HBV DNA水平是HBV病毒再激活排名第一的危险因素,与文献[2-3]相比,顺序后向选择只把HBV DNA水平选为危险因素,没有将放疗剂量选为危险因素,因此采用医学方法和计算机方法,选取的危险因素并不完全一样,计算机方法可以找到更多的危险因素。与文献[9]中的结果相比较,本研究发现,KPS评分是乙肝病毒再激活新的危险因素,KPS是功能状态评分标准,分值越高代表健康状况越好,分值越低代表健康状况越差。其他4个HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量依然被列为危险因素。所以将KPS评分、HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量作为乙肝病毒再激活的危险因素特征子集,具有更优越的分类性能,也是目前该领域发现的最优的危险因素组合。
本研究通过特征选择对原发性肝癌患者精确放疗后乙肝病毒再激活的危险因素发现,KPS评分、HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量是致使乙肝病毒再激活的危险因素,将这些危险因素送入建好的预测分类模型能够达到较高的预测精度。通过本实验可知,特征选择算法和贝叶斯分类器可以很好地运用到医学领域,今后机器学习的其他模型会相继应用到乙肝病毒再激活的研究中,致力于发现致使乙肝病毒再激活的危险因素,提前进行预防治疗,减少发病率,延长患者的生命,提高生活质量。
参考文献
[1]黄伟,卢彦达,张炜,等.原发性肝癌精确放疗致乙型肝炎病毒再激活分析[J].中华放射肿瘤学杂志,2013,22(3):193-197.
[2]Huang Wei,Zhang Wei,Fan Min,et al.Risk factors forhepatitis B virus reactivation after conformal radiotherapy inpatients with hepatocellular carcinoma[J].Cancer Science,2014,105(6):697-703.
[3]汪孟森.原发性肝癌三维适形放疗致乙型肝炎病毒再激活相关研究[D].济南:济南大学,2014.
[4]张晶晶,曲颂,余建荣,等.原发性肝癌三维适形放疗致乙型肝炎病毒再激活相关研究[J].癌症进展,2015(2):183-187.
[5]吴冠朋,王帅,黄伟,等.基于BP神经网络的肝癌放疗致乙型肝炎病毒再激活分类预测模型[J].智能计算机与应用,2016,6(2):43-47.
[6]Wang Shuai,Wu Guanpeng,Huang Wei,et al.The predictivemodel of hepatitis B virus reactivation induced by precise radiotherapy in primary liver cancer[J].Journal of Electrical and Electronic Engineering,2016,4(2):31-34.
[7]Wu Guanpeng,Wang Shuai,Huang Wei,et al.Application of BP andRBF neural network in classification prognosis of hepatitis
B virus reactivation[J].Journal of Electrical and Electronic Engineering,2016,4(2):35-39.
[8]Wu Guanpeng,Liu Yihui,Wang Shuai,et al.The classification prognosis models of hepatitis b virus reactivation based on Bayes
and support vector machine after feature extraction of geneticalgorithm[C]//International Conference on Natural
Computation,Fuzzy Systems and Knowledge Discovery.Changsha:IEEE,2016:572-577.
[9]吴冠朋,刘毅慧,王帅,等.基于遗传算法特征选择的HBV再激活分类预测模型[J].生物信息学,2016,14(4):243-248.
[10]游伟.基于支持向量机的基因选择算法研究[D].长沙:湖南大学,2010.
[11]游伟,李树涛,谭明奎.基于SVM-RFE-SFS的基因选择方法[J].中国生物医学工程学报,2010,29(1):93-99.
[12]Levner I.Feature selection and nearest centroid classification forprotein mass spectrometry[J].BMC Bioinformatics,2005,6(1):1-14.
[13]王姝勤.肝脏CT辅助诊断系统中特征选择和提取研究[D].上海:上海交通大学,2010.
[14]Tomar D,Agarwal S.Hybrid feature selection based weighted least squares twin support vector machine approach for diagnosing breast cancer,hepatitis,and diabetes[J].Advances in Artificial Neural Systems,2015,2015:1-10.
[15]钟珞,潘昊,封筠,等.模式识别[M].武汉:武汉大学出版社,2006:138.
[16]杨淑莹,张桦.模式识别与智能计算:Matlab技术实现[M].北京:电子工业出版社,2015.4:67-73.
[17]王静.基于贝叶斯的人脸识别[D].郑州:郑州大学,2006.
[18]刘丹,方卫国,周泓.基于贝叶斯网络的二元语法中文分词模型[J].计算机工程,2010,36(1):12-14.
[19]姚晖,龚金兰,李莉,等.肝癌患者精确放疗后HBV病毒再激活的危险因素分析[J].实用癌症杂志,2014(6):675-677.107
查看更多