`
langyu
  • 浏览: 883798 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

对实时分析与离线分析的思考(二)

阅读更多

      接上一篇blog对实时分析与离线分析的思考

      昨天看了S4与Storm的设计,再结合之前对Microsoft的Dryad的了解,感觉有些共性是需要明确的。

      在MapReduce这种“分裂-合并”模型出世之前,我们都采用“一层计算”的方式。比如统计“What I Have Done”这句话中每个词的出现频度。因为这种问题简单,目标数据量小,所以对我们的计算没有挑战。

      分治思想早就有了,但在我印象中比较深刻的例子就是网格计算。把大型计算分裂成小型任务,然后交给志愿者的电脑执行后再合并结果。这也是MapReduce所做的事情。可以把MapReduce称为“两层计算”。核心问题就是利用并行化,解决遇到的大数据量或大计算量的问题。MapReduce的思想只有两步,也限制了它在做一些复杂计算时挺麻烦,比如Join,Sort等,需要多步MapReduce任务。当前Hadoop MapReduce在解决这些复杂任务时的缺点也在于每个MapReduce Job之间相互独立,有始有终。在任务序列中,后面Job不能有效利用前面Job的输出结果(局部性)。

                   

      而对于这几种实时计算框架,同样是分治思想,但它的基本模型都是:有向无环图(DAG)。数据处理流程因为计算的复杂度,可以很方便地延伸。可以把这种模型称为“多层计算”。整个计算过程中,依然是并行化计算,数据不落地,在内存和网络中流动。用户可因计算的复杂度来规划计算流程的拓扑结构。它解决了MapReduce遇到的两个问题:1. 复杂计算硬套MapReduce时,流程冗长,很难编码。2. 任务有序列关系,但计算是独立的,不能利用局部化优势。

         

      “两层模型”与“多层模型”在面对不同的业务场景时都是有价值的。我不太认同硬是将很多复杂的计算套在MapReduce模型上,这让理解起来挺困难,编码起来更恶心。好像这几种实时计算框架也提供了拓扑结构规划工具,这是很贴心的服务。

      现在看来,对几种架构的共性总结就是:
      1. 分析模型都是DAG
      2. 依然并行化
      3. 数据on the fly

      继续学习中...

1
0
分享到:
评论
3 楼 edishf 2013-01-25  
i look forwarded
2 楼 langyu 2013-01-24  
edishf 写道

PS:不过好像很久没更新了


是很久没更新了!有很多想法,需要一段时间静下心来整理,期望过年后可以继续更新
1 楼 edishf 2013-01-20  
最近在应用图像与hadoop的结合,确实碰到了任务序列输出结果的问题,只能自己写Writable类,用sequencefile输出,然后用distributecache来输入,再读出,确实很麻烦。

大部分图像应用都是需要实时分析的,我的想法是可以是实时分析与离线分析并存,实时需要离线分析(之前就已经分析好的,每次有新数据输入就调用)的结果。


看到您的博客分析的非常好,拜读!

PS:不过好像很久没更新了

相关推荐

    天池大数据竞赛,新人离线赛。python(pandas,numpy,sklearn,lasagne....).zip

    以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域...

    2021大数据计算(边缘计算+实时计算+计算架构等)资料合集-共34份.zip

    2021大数据计算资料合集,共34份。 超融合时序数据库MatrixDB助力工业两化融合 边缘计算在网易场景下的应用实践 私有云Serverless实践 边缘Serverless平台建设 智能边缘融合端云的技术实践 ...实时计算平台架构与实践

    PHP实现文本快速查找 - 二分查找法

    (你懂得,小公司不可能为离线分析做一套完整的数据存储服务。大部分数据分析还要借助线上的数据集群) 优化方案的思考 有没有一种方式可以不增加线上的压力,同时提供更高效的查询方式?想过redis,但最终选择用...

    基于移动数据流量的体验分析报告---副本.pptx

    目录 总结 背景思考 作用于流量、内容的用户体验 基于数据流量的终端和产品 基于移动数据流量的体验分析报告---副本全文共38页,当前为第2页。 引言 移动语音通信市场逐渐趋于饱和,基于语音通信的短信、彩铃、彩信...

    QQ文件传输分析

    2.3本章思考 6 3. 文件夹传输 6 3.1文件夹传输 6 3.2本章思考 9 4. 离线文件传输 9 4.1离线文件传输 9 4.2本章思考 10 5. 断点续传 10 5.1断点续传 10 5.2本章思考 11 6. 文件传输设置 11 7. 思考 12

    DataFunSummit:2021年大数据计算架构峰会PPT合集(34份).zip

    DataFunSummit:2021年大数据计算架构峰会PPT合集(34份...实时数据分析平台建设实践 云原生大数据混合算力技术实践 离线计算平台的演进之路 实时计算平台建设实践 实时计算平台架构与实践 Bigo计算平台的建设之路 等等

    2016大数据技术大会

    2016大数据技术大会,来自一线互联网...​讯飞大数据的实践与思考​ ​大数据发展趋势报告​ Yita:基于数据流的大数据计算引擎 Ranking Relevance in Web Search 京东数据库备份系统进化之路 Qunar实时数据系统实践。

    Python自动化办公实战课,为希望提升工作效率的职场人士设计的Python办公自动化教程

    教程内容丰富,涵盖了文件的批量合并与拆分、数据统计分析、图像中文字的识别与转换等实用技能。特别地,它对比了在线与离线文字识别的方法,提供了针对不同场景的解决方案,并教授了如何通过函数与字典提高文本处理...

    【推荐】最新数据安全解决方案和实践合集.zip

    对数据安全治理的思考; 个人金融信息保护; 工业互联网数据安全白皮书; 合规视角下数据脱敏效果的评估研究与实践; 后疫情时代券商数据安全体系的实践与展望; 互联网用户隐保护策略分析; 混合云场景数据备份技术...

    异步并行批处理框架设计的一些思考

    此外还有针对实时在线流式数据处理方面的,同样也是分布式的计算框架Storm,也能很好的满足数据实时性分析、处理的要求。最后还有SpringBatch,这个完全面向批处理的框架,可以大规模的应用于企业级的

    有关煤炭检测技术的发展思考-论文

    煤炭在作为原燃料利用时,准确、实时、在线获得煤质指标具有十分重要的指导意义,因而在对煤质检验技术进行综述性评介的基础上判识发展趋向,基于煤炭利用对煤炭组成性能、检测的需求以研讨煤质检验技术开发或发展...

    Internet Monitor 2014:对数字世界的思考:平台,政策,隐私和公共话语-研究论文

    2014年Internet Monitor:对数字世界的思考包括来自世界各地的朋友和同事的近三十二份文稿,重点介绍和讨论了过去一年中数字化网络环境中一些最引人注目的事件和趋势。 该结果面向广大公众,汇集了对广泛问题和地区...

    2013年中国数据库大会PPT第一部分

    9.主流开源NoSQL及分布式存储的应用与思考.pdf 10.腾讯在线交易平台统一数据层高一致性解决方案.pdf 11.NoSQL一致性实践:我对CAP的一点认识.pdf 12.MongoDB at Qihoo 360.pdf 13.MySQL Cluster实战初探 .pdf 14.SAP...

    2013中国数据库大会ppt(1)

    主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...

    2013中国数据大会ppt(2)

    主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...

    2013中国数据库大会ppt(3)

    主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...

    编程狂人第十二期

    编程狂人是推酷网旗下的周刊,每周一发布,并且同步发布pdf离线版本,内容以开发技术,编程语言,框架等为主,并且配有一周IT业界新闻! 目录 业界新闻 斯坦福大学发布免费在线文本分析工具 Parse发布Bolts,一个...

    主流人工智能平台的架构及调优经验总结.pdf

    数据分析过程:问题抽象-》数据域定义-》数据处理-》数据集成-》数据加⼯-》数据集(⽤于数据分析的集合) 离线分析:历史数据 实时分析:运⾏数据 调优⽅案: ·问题抽象:分类、聚类、推荐、关联规则 ·特征获取...

Global site tag (gtag.js) - Google Analytics