程序设计
翻译样例中心 >> 电信翻译样例 >> 程序设计
关联规则的挖掘问题可以分解成以下两个子问题。
(1)找出事务数据库D中所有具有用户指定最小支持度的项集的一个非空子集。具有最小支持度的项集称为频繁项集(frequent itemset),反之就称为非频繁项集。
(2)利用频繁项集生成所需要的关联规则。这些规则必须满足最小支持度和最小置信度。
第二个问题较为容易和直观,主要的工作集中在第一个问题上。维护更新算法的核心就是利用已挖掘的关联规则为基础,在变化了的数据库/参数上发现新的关联规则,删除失效的关联规则,进一步解决关联规则的维护更新问题。原事务数据库D,已知当前D 的频繁项集LD,现保持最小支持度s不变,欲减少事务数据集为d,由于事务数据库的变化,导致原来的频繁项集L门对于变化后的数据库D —d已无意义。在分离欲减数据集d的过程中,得到d中所有1项目的相关信息(项目支持事务ID集合,每项目支持事务总计数),得到频繁1一项集;在此基础上使用连接项集(即当前的频繁1一项集)中的项目对频繁1一项集进行增长,分别得到候选2一项集(此方法称为“项目增长法”),从而求得频繁2一项集,将频繁2一项集中的所有项包含的单一项构成的集合,与连接项集求交集,动态更新连接项集中的项目(即产生新的连接项集,为以后增长做准备);⋯⋯;在得到频繁K 一1项集后,利用求解过程中更新的连接项集中的项目进行增长,分别得到候选K项集,从而求得频繁K项集。依据此方法只需要扫描数据集一次,便得到d的所有频繁项集。