|
摘要 针对传统分类器在不平衡数据集上性能降低的问题,提出一种基于FCM的簇内欠采样算法(Fuzzy C-means clustering Based Under Sampling In Clusters, FCMUSIC)。使用模糊c-均值聚类算法(Fuzzy C-Means clustering, FCM)将多数类样本划分成若干簇,在每个簇内以类别不平衡比率(imbalanced ratio, IR)的倒数作为采样倍率,得到新的多数类样本并与少数类样本合并,形成新的平衡样本集,结合KNN和Random Forest分类器进行分类。分析在5组不平衡数据集上的分类结果,当使用KNN分类器时,改进后的算法的F1值平均提高了6.65%,G-mean值平均提高了7.75%;使用Random Forest分类器时,F1值平均提高了5.31%,G-mean值平均提高了6.07%。表明FCMUSIC算法能够有效地提升传统分类器对不平衡数据集的分类性能。
|
|
关键词 :
分类,
不平衡数据,
欠采样,
聚类
|
|
基金资助:国家自然科学基金资助项目(81960325); |
[1] |
吴知仁 曾子都 熊含春 陈雄林. 创伤敷料的分类及其治疗糖尿病足的研究进展[J]. 实用临床医学, 2021, 21(4): 93-. |
[2] |
曹佳佳王淳霍崇辉陶多才罗晨煜吴潇翔 . 考虑负荷波动与电压偏移的城市充电桩分类优化配置[J]. 南昌大学学报(工科版), 2021, 43(2): 197-. |
[3] |
李传印. 汉唐之间图书文献四部分类中子部与史部的换位[J]. 南昌大学学报(人文社会科学版), 2020, 51(4): 86-. |
[4] |
刁海欣 黄卫昌 曾歆花 黄清俊. 黄花白及Bletilla ochracea不同生长发育期的菌根真菌多样性变化[J]. 南昌大学学报(理科版), 2020, 44(4): 346-. |
[5] |
余慧琴董秋仙刘君. 基于分类冲击的性能可恢复产品可靠性评估[J]. 南昌大学学报(工科版), 2020, 42(2): 199-. |
[6] |
万乐闫小青张纯陈红亮. 玻璃纤维复合材料拉伸损伤的声发射信号模式识别分析[J]. 南昌大学学报(工科版), 2020, 42(1): 23-. |
[7] |
王雪 陈炼 肖志勇. 基于深度稀疏自编码网络的植物叶片分类[J]. 南昌大学学报(理科版), 2019, 43(6): 606-. |
[8] |
董晓睿饶泓崔浩赵光秋万爱辉. 一种启发式的支持向量机多分类层次树结构构造方法[J]. 南昌大学学报(理科版), 2019, 43(3): 296-. |
[9] |
徐兵束斌. 基于模糊C-均值聚类法和粒子群优化算法的江西省无水港选址分析[J]. 南昌大学学报(工科版), 2018, 40(4): 403-. |
[10] |
贾楠谭金平肖志勇漆志亮吴建华. 基于脑功能连接和SAE的自闭症分类[J]. 南昌大学学报(理科版), 2018, 42(4): 399-. |
[11] |
刘圣星王隆辉王运楷. 下胫腓螺钉固定在Lauge-Hansen旋前-外旋型踝关节骨折合并下胫腓联合分离治疗中的应用效果[J]. 南昌大学学报(医学版), 2018, 58(3): 49-. |
[12] |
车小磊李向军沈华吴青松李子健唐丽君. 一种基于局部核校准的核评估标准[J]. 南昌大学学报(理科版), 2018, 42(3): 300-. |
[13] |
段文影饶泓段隆振马海亮. 基于IA参数寻优组合核的SVM文本分类研究[J]. 南昌大学学报(理科版), 2018, 42(3): 289-. |
[14] |
陈铭钧陶凌李富贵刘九畅. HHT在白细胞亚群分类算法中的应用[J]. 南昌大学学报(理科版), 2018, 42(1): 72-. |
[15] |
黄鉴洲. 成人非典型性脊柱结核X线、CT与MR改变及特征性表现[J]. 实用临床医学, 2017, 18(12): 62-. |
|
|
|