2.1 关联规则挖掘概念关联规则挖掘是一种发现数据项之间有趣关联关系的数据挖掘方法。所谓关联规则,是指形如X→Y的蕴含式,其中X和Y是数据集中的两个互斥的项集。关联规则的强度可以用支持度(Support)和置信度(Confidence)来衡量。
2.2 频繁项集和关联规则
关联规则挖掘的核心是寻找频繁项集。所谓频繁项集,是指在数据集中出现次数超过最小支持度阈值的项集。根据频繁项集,我们可以生成一系列的关联规则。
常见的关联规则挖掘算法包括:
(1)Apriori算法:基于先验知识,利用频繁项集的逐层搜索策略。
(2)FP-growth算法:利用FP树结构,避免了Apriori算法的重复扫描。
2.3 Apriori算法
Apriori算法是经典的关联规则挖掘算法,其基本思想是:频繁项集的任何非空子集也必须是频繁的。算法的基本流程如下:
(1)扫描数据集,计算每个项的支持度,生成1-频繁项集。
(2)由k-频繁项集生成k+1候选项集,并剪枝。
(3)扫描数据集,计算候选项集的支持度,生成k+1-频繁项集。
(4)重复步骤(2)(3),直到无法生成更高阶的频繁项集。
(5)根据频繁项集生成关联规则,并计算其置信度。
2.4 FP-growth算法FP-growth算法是Apriori算法的改进,利用FP树结构来存储数据集的压缩信息。算法的基本流程如下:
(1)扫描数据集,计算每个项的支持度,过滤非频繁项。
(2)构建FP树,每个节点记录项及其出现次数。
(3)从FP树中递归挖掘频繁项集。
(4)根据频繁项集生成关联规则,并计算其置信度。
DPex数字公证存证亮点 实现无需上传源文件,又可以完成公证存证的“私密存证”功能,满足企业在商业秘密、敏感数据方面的保密需求和存证保护需求。 