搜索历史频繁模式挖掘是《大数据挖掘技术》@复旦课程项目的关键内容,从搜狗实验室用户的查询日志数据(2008年)中发现具有高支持度的关键词频繁二项集。在技术实施方面,我搭建了一个由五台服务器组成的微型Hadoop集群,并用Python实现了Parallel FP-Growth算法的三个MapReduce过程。为了快速开始,请确保已安装Python以及jieba中文分词库。若未安装jieba,请在命令行中执行:pip install jieba # for python pip3 install jieba # for python3,或直接运行无jieba版本的find_pair_nojieba.py(功能上会缺少关键词近似匹配)。只需运行.src/demo/find_pair.py而无需修改任何文件,即可输入您想匹配的查询词。
挖掘搜索历史中的频繁模式《大数据挖掘技术》@复旦课程项目
相关推荐
数据挖掘技术一种高效的最大频繁模式挖掘算法
挖掘最大频繁模式是数据挖掘中的核心问题之一。提出了一种快速算法,利用前缀树压缩数据存储,通过优化节点信息和节点链,直接在前缀树上采用深度优先策略进行挖掘,避免了传统条件模式树的创建,显著提升了挖掘效率。
数据挖掘
13
2024-07-20
大数据挖掘教程
深度挖掘大数据,解析海量数据集,英文版本。
算法与数据结构
15
2024-05-15
数据挖掘:探索数据模式的技术
数据挖掘技术涵盖关联分析、分类、聚类、文本挖掘、Web 挖掘、图形挖掘以及流和时间序列挖掘等领域。通过学习数据挖掘,您可以:
掌握数据挖掘和知识发现(KDD)的过程。
分析不同数据挖掘和 KDD 算法的适用性。
设计算法解决分类、聚类问题,并从数据库中识别关联规则。
应用文本挖掘、Web 挖掘、图挖掘以及流和时间序列挖掘的概念和算法。
评估数据挖掘和 KDD 算法的性能,比较和对比不同算法的性能。
评估数据挖掘算法的可伸缩性。
分析影响数据挖掘效率的数据特征。
检查数据挖掘和 KDD 算法的局限性。
数据挖掘
18
2024-05-21
浙大数据挖掘课程代码集1.109
数据挖掘课程的实战代码资源,挺适合刚接触这块的同学啃一啃。文件名看着有点硬核:[浙大-数据挖掘].1-109.csf,但其实内容比较扎实,基本都是配套实验或者讲义里的例子,拿来练手挺香。
浙大的数据挖掘课程一向比较系统,这个 .csf 文件其实就是他们课件里的原始代码数据。适合配合视频或者 PPT 一起学,跟着一步步跑代码,理解那些 分类算法、聚类方法 会更快。
用的时候记得换下路径,像 data/input.csf 这类路径,要改成你本地的绝对路径,不然容易报错。格式也是定制的,用 浙大那套 CSF 格式,你要是用 Python 读,可以先转成 .csv 或 .txt。
你要是想搭个前端页面
数据挖掘
0
2025-06-16
频繁模式挖掘算法:观测研究
频繁模式挖掘在数据挖掘中扮演着关键角色,存在多种算法。本研究探索了模式连续挖掘中算法相关的主要问题和挑战。
数据挖掘
16
2024-05-25
浙大数据挖掘教程
浙大数据挖掘课件助您掌握数据挖掘技能。
数据挖掘
14
2024-05-13
中南大学软件学院数据挖掘上机作业1的频繁模式挖掘编程任务
中南大学软件学院数据挖掘上机作业1,涉及频繁模式挖掘编程任务。
数据挖掘
12
2024-07-14
大数据与数据挖掘
深入浅出解析大数据与数据挖掘,了解数据分析领域前沿技术。
数据挖掘
26
2024-04-30
通过建立条件模式库得到频繁集-数据挖掘概念、技术--关联1
建立条件模式库是数据挖掘中一个重要的步骤,它可以帮助识别频繁集,进而揭示数据中隐藏的模式和关联规则。
算法与数据结构
13
2024-07-24