大数据采集插件

工业感知大数据采集与计算

工业感知数据的工具你用过不少，但这个资源算是比较系统也比较实在的一个。从数据怎么采、怎么传，到怎么质量差的数据，全都有覆盖。内容不枯燥，讲的也蛮清楚，尤其是对工业场景里的那种传感器布局优化和变频采集算法，有实际例子，学了就能用，嗯，还挺不错的。

算法与数据结构 0 2025-07-01

大数据电商数仓业务数据采集平台

探讨电商数仓业务数据采集平台的设计与实现

Hadoop 11 2024-05-20

网络数据采集，Python 3 实现数据采集

Python 中有几种方法可以实现网络数据采集：1. 使用 requests 库采集网络数据：- 安装 requests 库：pip install requests- 采集网页数据：import requestsresponse = requests.get('网址')data = response.text2. 使用 BeautifulSoup 库采集 HTML 数据：- 安装 BeautifulSoup 库：pip install beautifulsoup4

数据挖掘 11 2024-05-25

大数据采集的八个实用心得总结

大数据采集涉及多个关键方面的实践经验，包括成功案例分析、信息策略制定、RSS技术应用、网页和网站数据下载方法、视频批量下载技巧、数据库检索与整合等。这些经验为数据专业人士提供了宝贵的指导和实施建议。

算法与数据结构 13 2024-07-15

大数据数据采集平台（一）Kafka集群搭建与管理

黑色命令行界面的 Hadoop 编译包、Flume 配置脚本、Kafka 集群管理方法……这些组件拼起来，就是一个还挺靠谱的大数据采集平台。JDK的 JVM 环境是第一步，你得先让 Java 家族的工具都能跑得起来。装完 JDK，路径配好，能敲出java -version才算过关。Hadoop在这里不是主角，但它的 HDFS 和 MapReduce 还是蛮管用的，数据量大了能临时扔里面，后续也方便。别忘了用 Linux 编译过的版本，更稳。Zookeeper就像后台的调度员，Kafka、Flume 这些都得靠它维持秩序。部署的时候注意端口别冲突，ZK 一挂，全系统都得跪。Flume还不错，配置

Hadoop 0 2025-06-17

01大数据项目之Spark实时数据采集

本节内容将围绕大数据项目之Spark实时数据采集进行详细的知识点总结。离线计算是指通过批处理的方式计算已知的所有输入数据，数据在计算前已经全部就位，不会发生变化，数据量大且保存时间长，在大量数据上进行复杂的批量运算。实时计算是指通过流处理方式计算当日的数据，例如使用Spark Streaming等技术。实时计算需要通过代码，往往需要对接多种数据容器完成，相对开发较为复杂。

Hadoop 16 2024-08-08

FlumeNG数据采集方式

FlumeNG数据采集方式 FlumeNG支持多种数据采集方式，包括： 1. RPC (Avro) 利用Avro RPC机制发送文件数据。示例命令： $ bin/flume-ng avro-client -H localhost -p 41414 -F /usr/logs/log.10 2. 命令执行通过执行命令获取输出作为数据源。支持单行输出，包括回车符(r)或换行符( )。可通过此方式间接实现tail功能。 3. 网络流支持多种流行的日志流协议： Avro (数据序列化系统) Syslog Netcat (使用TCP或UDP协议读写数据)

Hive 20 2024-04-29

NiFi 数据采集工具

NiFi 是一款实时离线数据采集工具，架构清晰，具备单点及集群部署能力。其处理器功能丰富，支持多种数据来源和变量表达式。广泛应用于数据集成、ETL 处理等场景。

Hadoop 10 2024-05-01

Python网络数据采集技巧

随着互联网的快速发展，Python成为了数据采集的热门选择。利用Python，可以轻松高效地从各种网站和数据库中提取所需信息，为数据分析和商业决策提供重要支持。不仅如此，Python还通过其丰富的库和工具，使得数据采集变得更加灵活和可靠。

算法与数据结构 14 2024-07-14