Storm

基于Python开发的全国企业工商数据查询软件v1.2.4

这款软件利用Scrapy爬虫框架结合代理IP池及请求模拟技术，还有验证码识别功能，能每日更新采集全国最新的工商信息。采集的数据自动存储在MySQL数据库中，支持SQL和Excel导出格式，包含1.8亿企业基本信息和36维度详细数据。

Storm 14 2024-07-26

Elasticsearch 2.3.1 IK分词器详解

Elasticsearch是一款高度可扩展的开源全文搜索引擎，提供了分布式、RESTful风格的搜索和数据分析引擎，能够快速响应复杂的查询。在处理中文文本时，使用特定的IK分词器非常关键。IK分词器是针对Elasticsearch 2.3.1版本设计的强大中文分词组件，具备智能分析能力和可扩展词库支持。它分为\"smart\"和\"full\"两种模式，适用于不同的分词需求。安装IK插件时，会加载Elasticsearch-analysis-ik-1.9.1.jar到类路径中，确保Elasticsearch能够有效使用IK分词器。此外，依赖的相关库包括httpclient-4.4.1.jar、

Storm 10 2024-07-25

Apache Storm实时数据处理技术参考手册.docx

Apache Storm是一款功能强大的开源分布式实时计算系统，允许开发者处理无界数据流，并提供低延迟高吞吐量的数据处理能力。与Hadoop等批处理系统不同，Storm专注于实时处理，能够在数据产生时即时分析和处理，实现快速响应和决策。与Hadoop相比，Storm的主要优势在于其实时性，适用于社交媒体分析、实时广告定向及物联网设备数据处理等场景。核心组件包括Topology、Spout、Bolt、Nimbus和Supervisor，安装前需配置Java环境和Zookeeper。

Storm 16 2024-07-24

Strom实时流处理大数据框架

Strom组件Topology定义了一个实时应用程序在storm中的运行结构。Nimbus负责分配资源和调度任务，Supervisor负责管理worker进程的启动和停止。Worker是执行具体组件逻辑的进程，每个spout/bolt的线程称为一个task。Spout生成源数据流，Bolt接收并处理数据。Tuple是消息传递的基本单位。Stream grouping定义了消息的分组方法。

Storm 12 2024-07-24

基于Python开发的全球贸易数据爬虫系统v2.4下载

这是一款基于Python爬虫技术开发的外贸企业数据爬虫系统，用于实时采集和更新全球海关、关单以及供应商数据。系统采用了Python多线程技术、requests库和代理IP池，确保每天数十亿条采购商和供应商的外贸数据实时更新。

Storm 21 2024-07-15

apache-storm-0.9.6.tar.gz

Storm提供了一组通用原语，用于分布式实时计算中的流处理，实时处理消息并更新数据库。这是一种管理队列及工作者集群的方式。Storm还支持连续计算，对数据流进行连续查询，并在计算时将结果以流的形式输出给用户。此外，它可用于分布式RPC，以并行方式运行复杂的计算。

Storm 12 2024-07-13

Storm是Twitter开源的实时大数据处理框架

Storm是由Twitter开源的分布式实时大数据处理框架，被业界誉为实时版Hadoop。

Storm 8 2024-07-12

Storm集群部署指南

文档详尽列出了安装Storm集群的每一步操作，并提供了相应的截图说明。用户可以跟随文档内容，逐步完成集群的部署，确保每个步骤都能正确实施。

Storm 10 2024-07-12

Storm组件-实时处理

Storm组件包含以下部分：Topology是storm中运行的一个实时应用程序。Nimbus负责资源分配和任务调度。Supervisor负责接受Nimbus分配的任务，启动和停止属于自己管理的worker进程。Worker运行具体处理组件逻辑的进程。Task是worker中每一个spout/bolt的线程。Spout在一个Topology中产生源数据流的组件。Bolt在一个Topology中接受数据然后执行处理的组件。Tuple是一次消息传递的基本单元。Stream grouping是消息的分组方法。

Storm 14 2024-07-12

STORM培训资料-storm-trainning-v1.0-zs

STORM培训资料Storm简介tStorm的特点高可靠性。Storm可以保证spout发出的每条消息都能被“完全处理”，这也是直接区别于其他实时系统的地方，如S4。spout发出的消息后续可能会触发产生成千上万条消息，可以形象的理解为一棵消息树，其中spout发出的消息为树根，Storm会跟踪这棵消息树的处理情况，只有当这棵消息树中的所有消息都被处理了，Storm才会认为spout发出的这个消息已经被“完全处理”。如果这棵消息树中的任何一个消息处理失败了，或者整棵消息树在限定的时间内没有“完全处理”，那么spout发出的消息就会重发。

Storm 13 2024-07-12