挖掘可擦除项目集,一个新兴的数据挖掘任务,从2009年开始吸引了广泛关注。介绍了NC_set,这一新数据表示形式,用于跟踪和优化挖掘可擦除项目集的信息。基于NC_set,提出了MERIT算法,通过紧凑的数据结构自动修剪无关数据,以线性时间复杂度完成增益计算转换,并在某些情况下直接找到可擦除项目集而无需生成候选项目集。实验表明,MERIT比META算法快两个数量级。
使用NC_sets优化挖掘可擦除项目集
相关推荐
学术论文研究优化FP-树的最大项目集挖掘算法.pdf
挖掘最大频繁项目集是数据挖掘中的核心问题之一。目前,FP-growth算法是最有效的频繁模式挖掘算法之一,但在挖掘最大项目集时存在时空效率不高的问题。为此,结合改进的FP-树,提出了一种高效的算法。改进的FP-树采用单向结构,并优化了存储空间利用,每个节点只保留指向父节点的指针。此外,引入项目序列集及其基本操作,避免了生成大量候选项目集或条件FP-树,能够快速挖掘出所有的最大频繁项目集。实例分析表明,该算法具备实际应用价值。
数据挖掘
15
2024-07-15
使用Python项目存储库进行Kickstarter数据挖掘
建议在设置应用程序时使用virtualenv。要安装所需的模块,只需键入: python setup.py install。在某些计算机上,此命令一开始可能会失败,因为numpy没有使用setuptools正确安装。要解决此问题,请直接使用pip安装numpy,如pip install numpy==1.9.1,然后执行setup.py install。课程信息从xml获取,这是运行应用程序的要求。要将课程导入MongoDB,请运行以下命令: python course_import.py。配置应用程序可以通过添加app.cfg文件或环境变量来完成。
数据挖掘
12
2024-08-24
Turbot使用Python进行数据挖掘的项目
Turbot的安装方法是通过运行python setup.py install命令完成。导入Turbot库后,可以创建Turbot对象并使用它来回答问题,例如“Bjarne Stroustrup的出生日期是1950年12月30日”,或确认“天空是否是蓝色”。
数据挖掘
16
2024-08-15
软件项目管理文档集
项目编码规范编写指南
项目产品数据统计分析报告编写指南
配置管理计划编写指南
硬件、软件和图书资料编号方案 v1.1
统计分析
19
2024-05-15
数据挖掘项目
问题摘要:学生无法根据他们在课程中的表现以及与课程的在线学习环境(moodle)的互动来预测他们的最终成绩。目的:研究数据挖掘技术,对Moodle上的数据实施最适用的模型,对学生的成绩进行预测。任务包括:研究不同的数据挖掘技术,审查在类似领域实施的模型,查看在所述问题的领域中实现的其他模型。确定最适用于对Moodle格式的数据进行预测的技术,在给定的上下文中设计独特的数据预测模型,比较和评估所选模型与现有数据模型的准确性,展示研究结果,可视化结果。
数据挖掘
11
2024-07-12
基于Hive的项目实战用户数据集优化
基于Hive的项目实战用户数据集格式为:上传者字符串, 视频数整型, 好友数整型。
Hive
11
2024-10-15
数据挖掘项目仓库
数据挖掘项目
作者: Philippe CHARRAT 和 Clément CORNU
目标: 使用 Python 创建推荐系统(开发中)
数据挖掘
9
2024-05-25
并行频繁项集挖掘算法的优化研究
传统的挖掘频繁项集的并行算法存在节点间负载不均衡、同步开销过大、通信量大等问题。针对这些挑战,提出了一种名为多次传送重新分配数据的并行算法(MRPD)。在MRPD算法中,第l步将数据库重新划分成多个组,并根据各节点的需求多次传送这些组。各节点在异步地计算完整组后,可以得到所有频繁项集。理论分析和实验结果均表明,MRPD算法在优化并行频繁项集挖掘中具有显著效果。
数据挖掘
16
2024-07-16
Linux nc命令详细解析
Linux nc命令(即Netcat)是一款功能强大的网络工具,支持TCP和UDP数据包的读写,并提供多种选项用于执行各种复杂的网络任务。它广泛应用于网络测试、文件传输和远程控制等场景。nc命令的参数包括-g、-G、-h、-i、-l、-n、-o、-p、-r、-s、-u、-v、-w和-z,每个参数都有其特定的用途和设置方式。例如,通过nc命令可以实现端口扫描、文件传输以及建立简单的聊天工具等功能。
Hadoop
12
2024-08-26