|
|
一种新的基于Bloom filter数据结构的数据消冗算法 |
邓剑勋熊忠阳邓欣 |
重庆大学计算机学院重庆电子工程职业学院软件学院重庆邮电大学计算机学院 |
|
|
摘要 针对以往数据消冗算法存储消耗高,时间消耗久以及重复率检测效果不是十分理想,引入Bloom filter数据结构将大数据进行降维处理,提出了一种新的数据消冗算法,该算法首先利用完全文件检测算法对数据进行检验匹配,通过的数据块再利用CDC分块检测算法进行进一步检测匹配,依据余弦相似度公式以及Hamming距离值计算数据相似度,最终完成数据消冗。仿真实验结果表明本文提出的数据消冗算法综合性能良好,既确保了检测数据重复率的准确性又提高了数据检测速度,同时降低了存储开销。 更多还原
|
|
关键词 :
数据降维,
数据消冗,
数据缩减率,
相似度
|
|
基金资助:国家自然科学基金-青年科学基金项目(61403054); 重庆市教委科学研究项目(KJ1503004);
|
|
|
|