|
摘要 C4.5算法作为目前常用的数据挖掘方法,仍存在一些缺陷。针对算法中出现的信息增益率计算复杂的问题,通过数学知识对增益率计算过程进行简化,提高计算效率;针对算法中可能偏袒属性值较多的属性的不足,在非类属性进行最佳属性的选择时引入权重这个概念;针对连续属性离散化过程耗时的缺陷,利用边界定理寻找最大信息增益率的候选分裂点,减少计算时间。将改进后的算法应用到葡萄牙某银行挖掘认购存款的潜在用户上,实验结果表明,C4.5改进算法计算量减少,分类准确率也有提高,决策树的生成时间也大大缩减,构建的决策树贴合实际。
|
|
关键词 :
C4.5算法,
数学,
权重系数,
连续属性,
边界定理
|
|
基金资助:国家自然科学基金资助项目(61070139,81460769); |
[1] |
徐兵; 吴军. M模式与R模式双渠道供应链的价格竞争研究[J]. 南昌大学学报(理科版), 2016, 40(02): 121-. |
[2] |
刘凤娟. 康德数学观新探[J]. 南昌大学学报(人文社会科学版), 2016, 47(01): 25-. |
[3] |
胡好; . 康德数学的构造理论简[J]. 南昌大学学报(人文社会科学版), 2014, 45(06): 13-. |
[4] |
黄忠棋; . 基于数学形态学的电力电缆行波故障测距研究[J]. 南昌大学学报(工科版), 2014, 36(03): 283-. |
[5] |
李鸣; 刘琪璟; 万金保. 乐安河水环境中重金属污染模型及应用[J]. 南昌大学学报(理科版), 2010, 34(04): 1-. |
[6] |
尹洪位; 文小庆. 一类反应扩散方程D-SI流行病模型正解存在性[J]. 南昌大学学报(理科版), 2008, 32(03): 1-. |
[7] |
罗晓芳. 基于模糊评价的学生综合素质挖掘方法[J]. 南昌大学学报(理科版), 2006, 30(06): 1-. |
[8] |
. 南昌大学学报(理科版)2006年总目次[J]. 南昌大学学报(理科版), 2006, 30(06): 1-. |
[9] |
陈杨华; 吴逸飞. 冰蓄冷空调系统设备选择的数学模型及简化求解[J]. 南昌大学学报(理科版), 2006, 30(01): 1-. |
[10] |
. 南昌大学学报·工科版2005年总目次[J]. 南昌大学学报(工科版), 2005, 27(04): 1-. |
[11] |
万兴; 万金保. MBR处理城市生活污水数学模型初探[J]. 南昌大学学报(工科版), 2005, 27(04): 1-. |
[12] |
郑军; 谈振兴. 关于奇点类型的讨论[J]. 南昌大学学报(理科版), 2005, 29(03): 1-. |
[13] |
吕列民. 水力模型尾水测控系统数学模型[J]. 南昌大学学报(工科版), 2005, 27(02): 1-. |
[14] |
马新生; 耿茂鹏; 尧军平; 杨小军. 电渣熔铸过程中数学模型的分类及数值模拟的简便求解[J]. 南昌大学学报(工科版), 2005, 27(01): 1-. |
[15] |
蒋柏泉; 熊筱芳; 郑典模. 连续换热式氨合成反应器中催化剂活性系数的快速确定[J]. 南昌大学学报(工科版), 2004, 26(02): 1-. |
|
|
|