针对现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,提出了一种快速有效的基于层次聚类的全局孤立点检测方法。该方法利用层次聚类结果,通过聚类树和距离矩阵可视化评估数据的孤立度,并确定孤立点数量。从聚类树顶层开始,无监督地去除孤立点。仿真实验验证了本方法能快速有效地识别全局孤立点,具备良好的用户友好性,适用于不同形状的数据集,特别适用于大型高维数据集的孤立点检测。
一种新型全局孤立点识别方法-基于层次聚类的创新研究.pdf
相关推荐
一种基于层次与划分聚类融合的改进文本聚类算法
高维稀疏相似矩阵的文本聚类方案,老实说还挺实用的。融合了层次聚类和划分聚类的思路,用一个阈值动态选聚类方式,这种设计挺巧,既省计算量,准确率也没掉太多。文本越来越多,尤其中文文本,普通聚类搞不好容易失焦。这个算法考虑了中文分词的特性,对中文聚类友好多。你要是常内容分类、自动标签这类场景,可以试试这个思路,改一改甚至能直接上生产。算法的机制是:先看相似度,如果小于设定阈值就新开一个簇,否则归到最近的那个里头。听起来简单,但跟传统聚类比起来,确实更灵活,适合那种主题跨度大的内容池。想深入挖的可以看看Chameleon 算法,也是主打层次聚类的,组合着用效果更稳。对了,还有一篇讲 K-medoids
数据挖掘
0
2025-06-17
研究论文-一种自然聚类发现的新算法.pdf
当前的聚类方法如K-means和DBSCAN采用全局参数,难以准确发现数据的自然聚类结构。新提出的分级聚类算法CluFNC通过调整网格大小、噪声阈值和神经节点数量,能够在数据空间中精确识别内部聚类特征。该算法首先根据参数划分数据空间网格,然后利用高斯影响函数计算每个单元的场强,接着运用SOM算法对网格位置和场强进行聚类,最后通过Chameleon算法对SOM聚类得到的神经网络节点权值进行最终的数据空间聚类映射。理论和实验结果表明,该算法能有效发现数据中的自然聚类特性。
数据挖掘
16
2024-07-31
Jaya一种创新的优化算法
介绍了一种简单但强大的优化算法,适用于解决有约束和无约束的优化问题。所有基于进化和群体智能的算法都是概率算法,需要共同的控制参数,如种群规模、世代数、精英规模等。不同的算法除了共同的控制参数外,还需要特定的算法参数。例如,GA使用变异概率、交叉概率和选择算子;PSO使用惯性权重、社会和认知参数;ABC使用围观蜂数、雇佣蜂数、侦察蜂数和限制数;HS算法使用和声记忆考虑率、音调调整率和即兴次数。其他算法如ES、EP、DE、SFL、ACO、FF、CSO、AIA、GSA、BBO、FPA、ALO、IWO等也需要对各自的特定参数进行优化。算法特定参数的适当调整对算法性能非常关键,而不当的调整可能导致计算量
Matlab
10
2024-09-25
探索图论算法: 一种基于 Matlab 的方法
探索图论算法: 一种基于 Matlab 的方法
本资源深入研究图论算法领域,并提供基于 Matlab 的实践方法。内容涵盖经典算法(如最短路径、最小生成树)以及网络流和匹配等高级主题。通过实际示例和 Matlab 代码实现,帮助读者掌握将理论应用于实际问题。
Matlab
20
2024-05-23
Moth Swarm Algorithm (MSA)一种新型元启发算法
Moth Swarm Algorithm (MSA):灵感来源于飞蛾对月光的导向。该算法引入了两种创新优化算子:(1)基于种群多样性的交叉点动态选择策略,利用差异向量Lévy-mutation提升侦察阶段的探索能力;(2)集成即时记忆的联想学习机制,模拟飞蛾的短期记忆,解决经典粒子群算法的初始速度问题。此代码演示了MSA在23个常用基准测试中的应用。详细信息参见Mohamed等人(2017)的研究:“使用蛾群算法的最优潮流”。
Matlab
9
2024-08-01
Sinaplot:一种用于数据可视化的创新方法
Sinaplot 是一种数据可视化方法,它结合了带状图和小提琴图的优点,以简洁易懂的方式呈现数据。它通过沿 x 轴抖动点并限制归一化密度来创建类似于小提琴图的轮廓,同时保持带状图的简单性,适用于各种样本大小的数据集。 Sinaplot 能有效传达数据点数量、密度分布、异常值和散布等关键信息。
Matlab
10
2024-05-28
一种创新的基于N-list的频繁项集挖掘算法
频繁项集的挖掘是数据挖掘中的核心问题之一,在多个关键数据挖掘任务中至关重要。引入了一种名为N-list的新型垂直数据表示形式,灵感源自于类似FP-tree的编码前缀树(PPC-tree)。N-list存储了频繁项集的关键信息,通过该数据结构,我们提出了一种高效的挖掘算法PrePost,能够有效地发现所有的频繁项集。PrePost算法的高效性源于几个关键因素:N-list的紧凑性,基于交集的项目支持计数转换,以及利用N-list的单路径属性直接发现频繁项集。我们在多种真实和合成数据集上对PrePost算法进行了实验评估,并与四种先进算法进行了比较,结果显示PrePost算法在大多数情况下表现最优
数据挖掘
16
2024-07-27
小波分形压缩一种创新的微阵列图像压缩方法
我由衷感谢教授Alireza Nasiri Avanaki在这项工作中的大力支持。在此过程中,我们提出了一种有效的微阵列图像压缩方法,利用了混合波-MATLAB开发。
Matlab
6
2024-09-23
一种新型基于相似度的二元监督分类算法研究以檀香气味为例
近年来,数据挖掘领域取得了显著进展,主要得益于数据分析技术的快速发展。二元分类技术作为数据挖掘的重要分支,能够根据特定标准将数据分为两类。针对这一领域的不同需求,已经涌现出多种统计和机器学习算法。选取了一组分子作为案例,展示了一种基于新测量功能的二元分类方法,该方法通过可靠性计算与传统算法有所不同,提升了分类准确度。研究表明,该方法在分子数据集上的f度量超过了70%。
数据挖掘
17
2024-08-03