外部数据的读取是 R 语言里你绕不开的一块,尤其是你刚上手做数据的时候。read.table()
和read.csv()
这俩函数,嗯,用得最多,基本上你天天都得打交道。txt、csv 都能整,格式也比较灵活,响应也快,代码也简单。
最常见的是csv
文件,像电商数据、实验记录这种,基本全是这个格式,直接用read.csv('data.csv')
就行,默认以逗号分隔。txt 格式就换成read.table()
,自己设个sep
参数,比如制表符用sep='\t'
。
如果你碰上的是 Excel、SPSS、SAS 这些比较“非主流”的格式,别慌,R 社区里也有一堆包帮你搞定。像foreign
包支持好几个老牌统计软件文件的读取,readxl
对 Excel 文件也蛮友好,haven
也可以读 SAS 和 SPSS。
哦对了,网上还有不少人整理了相关教程和工具,像R 语言read.csv
函数使用教程就挺清楚,适合你刚起步的时候参考。
实用建议?别太依赖默认设置,多看看header
、stringsAsFactors
这些参数,灵活调整才能避免数据读错。如果你做项目用的是 Excel 之类的数据源,建议提前转成 csv,减少依赖。
如果你经常在不同软件间切换做数据,那可以去看看下面这些相关工具,像 MATLAB 的read_dxf
、Delphi 读 Excel、甚至EZread
这些工具,对提高效率还挺有的。