数据的日常里,生物学的数据量真不是开玩笑的,动不动就是几百 G 起步。Karol Kozak 的这本书就比较实用,讲了怎么这些大规模数据。比如用什么样的存储系统更高效,怎么把数据流程搭成工作流,还有可视化的做法也讲得蛮清楚。
工作流系统部分挺值得一看,尤其是你在用 DolphinScheduler
或 Oozie
这些调度工具的话。调度逻辑清晰了,任务排得顺,整体效率也就上来了。想了解下这些平台的,可以看下DolphinScheduler 或 Oozie。
数据挖掘和可视化部分也不赖。里面会讲一些怎么针对研究需求定制流程的思路,用 Matlab 或虚拟现实去可视化挖掘结果,这块在做科研的时候挺有用的。想扩展下的可以翻翻Matlab 可视化 或 虚拟现实可视化。
还有个细节我觉得不错,就是讲得比较贴地气,不会死板地讲理论。举了不少实际项目的例子,适合你刚接触生信数据或者正准备上大型数据项目的时候看看。嗯,如果你用 Hive
做数据仓库,也可以顺手看看Hive+Oozie 的资料,组合拳更稳。
,这本书适合边学边用,遇到瓶颈翻一翻,就有灵感了。如果你在研究方向上常大量样本数据,这本还蛮值得加进书签的。