最新实例
史上最佳数据资源目录建设规范
黑白分明的数据目录结构,加上清晰的元数据规范,《史上最佳数据资源目录建设规范》可以说是我最近用过最顺手的标准文档之一。分类方法清楚,编码也有据可循,用GB/T 21063.4—2007标准那套,没跑偏,落地也不费劲。元数据分得挺细,业务元数据、技术元数据、管理元数据都有交代。你要是做大数据目录管理或者搞元数据平台建设,照着它的结构走一遍,少走不少弯路。尤其是技术那一块,接口、API、存储格式这些细节都写得明明白白,拿来做团队规范模板也挺合适。安全这一段也没落下,访问控制、加密、权限全覆盖,该有的都有。顺带推荐几个资源,像 Apache Atlas 元数据管理详解、EsPowerMeta 元数据
大数据全国空气质量报告
大数据爬虫抓下来的全国空气质量报告,CSV 格式的,结构清晰,字段也比较完整,城市、时间、AQI 啥的都有,起来还挺方便。适合做可视化展示、模型预测,甚至可以直接接到你自己的前端项目里,像是城市空气质量看板、地图图层叠加那种场景,用起来顺手。文件是大数据全国空气质量报告.csv,有现成的爬虫程序配套,响应快,代码也比较清晰,照着改改就能用,省了不少事。如果你想进一步搞可视化,可以看看城市空气质量模拟数据可视化那篇,还挺有意思的,图表做得细致。另外,数据量大一点没关系,浏览器端也能撑得住,前提是你分页加载或者用Web Worker拆线程,别一股脑全加载。嗯,数据是静态 CSV,你也可以丢到Nod
正逼近粗糙集属性约简加速器
如果你在做机器学习和数据挖掘,应该知道**特征选择**是个棘手的问题吧。粗糙集理论是一个常见的方法,是在**属性约简**的过程中。不过,有个小问题,就是计算过程比较费时。为了提高效率,最近有个不错的加速器——**正逼近**,能大大加速启发式属性约简的过程。用这个加速器,几种代表性的粗糙集启发式算法都得到了增强,改进后的版本在大数据集时的性能更加突出,真的是挺不错的!实验表明,使用这个加速器后,算法不仅计算更快,分类精度还保持不变,甚至更好。如果你有类似需求,值得一试哦。
Matlab 2014a打包报错Compiler授权失败
打包 Matlab 项目的时候突然报错,Test checkout of feature 'Compiler' failed,你是不是也遇到了?我当时搞了一天才发现,原来是安装的时候有些文件没整对。懒得重装?我也是,直接换了几个文件,问题就搞定了。资源还挺全的,有需要的拿去用吧,挺省事。
Hadoop环境配置脚本
配置 Hadoop 环境的第一步,往往就是动手改hadoop-env.sh。嗯,这个脚本挺关键的,主要是用来设置 Java 环境变量。你只要搞定了JAVA_HOME,Hadoop 基本就能跑起来,挺省心。 hadoop-env.sh的写法其实不复杂,基本就是几行export,比如: export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 像这种路径问题,最好别硬编码死在系统里,用环境变量调起来更灵活。不同机器装的位置不一样嘛。 如果你本地装了多个 Java 版本,记得确认下which java指向哪个,别配置错了,不然启动直接报错,头大。 除了
金融统计软件SAS实用教程
SAS 的金融能力,真不是吹的。《金融统计软件 SAS 实用教程》这本教程,挺适合搞金融建模或者数据的朋友。像那种几十万行交易记录,做风险预测、信用评分啥的,SAS 用起来就是一个字:稳。数据清洗、转换到建模、可视化,全流程搞定。你只要熟一点 PROC 步骤,比如 PROC MEANS 跟 PROC LOGISTIC,多事就水到渠成。哦对,SAS 支持 CSV、TXT、DBF 这些格式,导数据也方便。要我说,SAS 最香的地方是它那些统计过程,像线性回归、逻辑回归,甚至是时间序列,统统都有专属模块。PROC GLM、PROC ARIMA这些,配上图形输出,直接出报告都行。还有几个比较实用的工具
Pandas量化交易函数示例合集
量化交易里的 Pandas 函数,说实话,用得最多的还是那些经典操作,比如groupby、resample、rolling这种,数据预的时候真的离不开它们。这份示例文件,正好把这些函数串了一遍,案例不复杂,但蛮实用的,改一改就能直接用在自己的策略上。 Pandas 的 DataFrame 操作是重点,像df.loc和df.iloc的区别,在里面有清楚的用法示例,省得你翻文档。还有不少人经常混淆apply和map,这个文件里也顺手举了例子,挺贴心的。 文件风格比较清爽,结构也利索。一般从读取 CSV 开始,是各种切片、过滤、重采样,配合一些金融指标的计算,流程蛮像实际写策略那一套。顺手一看,立马
SPSS均值比较与T检验分析
如果你在做数据,想了解如何使用 T 检验进行均值比较,这篇文章挺适合你。T 检验可以你判断不同样本的均值是否存在显著差异,常用的有单样本、独立样本和配对样本 T 检验。尤其是对比两组数据时,T 检验会是你工具。t 值的计算方法也简单,主要看样本是否来自正态分布。,如果你还在为如何进行均值比较烦恼,不妨试试 T 检验,效果蛮不错的!另外,文章中还给出了相关的工具,比如 SPSS 和 MATLAB,你也可以看看哦。每种工具的使用方法都不一样,了解不同的实现方式会让你在时更加得心应手。
悠索科技绩效考核系统V5.6.1
悠索的绩效考核系统 V5.6.1,界面走的是比较传统的 Windows 风,功能倒是挺全的。部门树结构支持多层嵌套,关系设置起来不费劲。你可以自己加员工、配指标,流程跑得顺,响应也快。后台能配导航,能发通知,还能查工资,属于实用型系统。 测试版本用的是Access 数据库,虽然功能上少了一些花活儿,但该有的流程都能走通,主要是方便你先看看系统长啥样、咋操作。正式环境是走的SQL Server,稳定性没啥大问题,边防站、医院、政府都用过,能打。 导出这块儿也做得不错,支持Excel、PDF、Word等格式。服务器上没装 Office 也没事,靠 NPOI 搞定导出,还挺贴心的。图表展示走的是 F
MapReduce工作原理总结
MapReduce 的工作流程讲得还挺清楚的,适合你想系统了解下分布式任务到底是怎么跑起来的。它的结构设计就是为了“大块头”数据服务的,先拆分再合并,效率还挺高。尤其是 Map 阶段的数据切分、缓冲和磁盘合并说得细,配图的话理解会更快。Reduce 阶段也有实操感,像拉数据、排序、归并这些,在真实业务里就是每天都要面对的活。要是你刚接触 Hadoop 或者准备上 MapReduce 任务,这篇总结能帮你扫掉不少盲区,避免踩坑。