最新实例
基于Python开发的全国企业工商数据查询软件v1.2.4
这款软件利用Scrapy爬虫框架结合代理IP池及请求模拟技术,还有验证码识别功能,能每日更新采集全国最新的工商信息。采集的数据自动存储在MySQL数据库中,支持SQL和Excel导出格式,包含1.8亿企业基本信息和36维度详细数据。
Storm
14
2024-07-26
Elasticsearch 2.3.1 IK分词器详解
Elasticsearch是一款高度可扩展的开源全文搜索引擎,提供了分布式、RESTful风格的搜索和数据分析引擎,能够快速响应复杂的查询。在处理中文文本时,使用特定的IK分词器非常关键。IK分词器是针对Elasticsearch 2.3.1版本设计的强大中文分词组件,具备智能分析能力和可扩展词库支持。它分为\"smart\"和\"full\"两种模式,适用于不同的分词需求。安装IK插件时,会加载Elasticsearch-analysis-ik-1.9.1.jar到类路径中,确保Elasticsearch能够有效使用IK分词器。此外,依赖的相关库包括httpclient-4.4.1.jar、
Storm
10
2024-07-25
Apache Storm实时数据处理技术参考手册.docx
Apache Storm是一款功能强大的开源分布式实时计算系统,允许开发者处理无界数据流,并提供低延迟高吞吐量的数据处理能力。与Hadoop等批处理系统不同,Storm专注于实时处理,能够在数据产生时即时分析和处理,实现快速响应和决策。与Hadoop相比,Storm的主要优势在于其实时性,适用于社交媒体分析、实时广告定向及物联网设备数据处理等场景。核心组件包括Topology、Spout、Bolt、Nimbus和Supervisor,安装前需配置Java环境和Zookeeper。
Storm
16
2024-07-24
Strom实时流处理大数据框架
Strom组件Topology定义了一个实时应用程序在storm中的运行结构。Nimbus负责分配资源和调度任务,Supervisor负责管理worker进程的启动和停止。Worker是执行具体组件逻辑的进程,每个spout/bolt的线程称为一个task。Spout生成源数据流,Bolt接收并处理数据。Tuple是消息传递的基本单位。Stream grouping定义了消息的分组方法。
Storm
12
2024-07-24
基于Python开发的全球贸易数据爬虫系统v2.4下载
这是一款基于Python爬虫技术开发的外贸企业数据爬虫系统,用于实时采集和更新全球海关、关单以及供应商数据。系统采用了Python多线程技术、requests库和代理IP池,确保每天数十亿条采购商和供应商的外贸数据实时更新。
Storm
21
2024-07-15
apache-storm-0.9.6.tar.gz
Storm提供了一组通用原语,用于分布式实时计算中的流处理,实时处理消息并更新数据库。这是一种管理队列及工作者集群的方式。Storm还支持连续计算,对数据流进行连续查询,并在计算时将结果以流的形式输出给用户。此外,它可用于分布式RPC,以并行方式运行复杂的计算。
Storm
12
2024-07-13
Storm是Twitter开源的实时大数据处理框架
Storm是由Twitter开源的分布式实时大数据处理框架,被业界誉为实时版Hadoop。
Storm
8
2024-07-12
Storm集群部署指南
文档详尽列出了安装Storm集群的每一步操作,并提供了相应的截图说明。用户可以跟随文档内容,逐步完成集群的部署,确保每个步骤都能正确实施。
Storm
10
2024-07-12
Storm组件-实时处理
Storm组件包含以下部分:Topology是storm中运行的一个实时应用程序。Nimbus负责资源分配和任务调度。Supervisor负责接受Nimbus分配的任务,启动和停止属于自己管理的worker进程。Worker运行具体处理组件逻辑的进程。Task是worker中每一个spout/bolt的线程。Spout在一个Topology中产生源数据流的组件。Bolt在一个Topology中接受数据然后执行处理的组件。Tuple是一次消息传递的基本单元。Stream grouping是消息的分组方法。
Storm
14
2024-07-12
STORM培训资料-storm-trainning-v1.0-zs
STORM培训资料Storm简介tStorm的特点高可靠性。Storm可以保证spout发出的每条消息都能被“完全处理”,这也是直接区别于其他实时系统的地方,如S4。spout发出的消息后续可能会触发产生成千上万条消息,可以形象的理解为一棵消息树,其中spout发出的消息为树根,Storm会跟踪这棵消息树的处理情况,只有当这棵消息树中的所有消息都被处理了,Storm才会认为spout发出的这个消息已经被“完全处理”。如果这棵消息树中的任何一个消息处理失败了,或者整棵消息树在限定的时间内没有“完全处理”,那么spout发出的消息就会重发。
Storm
13
2024-07-12