数据挖掘里的数据抽样,真是个值得花点心思搞清楚的事。techpackage.net的这篇文章,把理论和实战结合得挺到位。讲的内容不是光靠嘴皮子,而是有一堆有代表性的案例,尤其是讲怎么用随机数生成器来抽样,挺接地气。像你想在训练模型时少等点时间,又不想数据失真?就得靠这招。

另外,文末那一堆链接也蛮贴心,基本把用MATLABC 语言搞随机数的方法都扒出来了,什么高斯分布、Zipf 分布、指数分布啥的全都有。你要是刚好在搞模拟数据,顺着点进去看看,不吃亏。