`
langyu
  • 浏览: 884436 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

对实时分析与离线分析的思考

阅读更多

    数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应。Hadoop的设计初衷是存储与分析离线大数据,我认为它的缺点就是不能及时地利用数据中所蕴含的深层价值。

    在做深入分析之前,我想从门外汉的角度来说说我自己理解的实时分析是什么样子的。它的目标很明确:尽快地从数据中挖掘出有用的内容来。这牵扯到把计算移动到哪个地方去的问题。数据源本地?数据传输流中?一个集中存储的地方?对数据的分析越靠近数据源就越有效。但一般的数据源都是业务系统,不能允许数据分析占用它的硬件资源。所以我想当前的一些实时分析系统也是取向于后两种场景。

    实时分析过后的数据该怎么办,是抛弃掉还是需要继续存储着呢?我认为对数据的分析就如同对石油的提炼一样。高中时看到介绍提炼石油的过程,先分离出航空煤油,再经过步骤分离出普通汽油、煤油等,经过一道道筛选后最后还有渣料能用。数据分析的过程亦如此。要考虑实时,就不能对数据做复杂的逻辑分析,而这正是离线系统的优势。所以,对分析后的数据该怎样处理还是得看数据有没有必要再做深度处理。Facebook就有利用HDFS做中间存储,对数据既做实时分析,又做离线分析的实现。

    离线分析现在遇到的一些问题,实时分析也会遇到。系统应该需要很容易地水平扩展,因为实时的数据量挺难预估,实时分析系统就应该可以自动调整容量。MapReduce的优点在于对源数据做切分,然后并行地执行。但怎样利用并行化来提高实时分析的效率也是需要考虑的。当前MapReduce在计算中依赖磁盘来做临时存储,我对这种做法不太认同,还是希望计算中只利用内存与网络,不要让磁盘存取成为影响计算能力的隐患。好像有个系统叫MapReduce Online正在尝试解决这个问题,之后会关注下它的进展。

    他山之石,可以攻玉。因为初次接触实时分析,有必要分析下现有实时分析系统的设计架构。Google了一把,当前的实时分析系统有:Yadoo!的S4、Twitter的Storm和IBM的StreamBase等。这段时间会研究它们的需求与设计,以期更好地理解实时分析会遇到哪些问题。

    OK,路还很长,得多多努力了

********************************************
这里是我写这些想法之前临时写的提纲:

    离线分析的优点是:
        可以寻找恰当地分割方式,对任务做并行分析
        批量存取数据
        可以对数据做复杂的业务处理

    离线分析的缺点是:
        数据中所蕴含的深层价值得不到及时的利用

    实时分析的缺点:
        数据量太大,很难有复杂的业务处理

    对实时分析提出的建议:
        尽量使用内存而不是磁盘
        考虑并行化,减少数据压力
        架构可水平扩展
********************************************
0
0
分享到:
评论
1 楼 xiaoxiaopan118 2016-08-01  
分析很好!

相关推荐

    天池大数据竞赛,新人离线赛。python(pandas,numpy,sklearn,lasagne....).zip

    以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域...

    2021大数据计算(边缘计算+实时计算+计算架构等)资料合集-共34份.zip

    2021大数据计算资料合集,共34份。 超融合时序数据库MatrixDB助力工业两化融合 边缘计算在网易场景下的应用实践 私有云Serverless实践 边缘Serverless平台建设 智能边缘融合端云的技术实践 ...实时计算平台架构与实践

    基于移动数据流量的体验分析报告---副本.pptx

    目录 总结 背景思考 作用于流量、内容的用户体验 基于数据流量的终端和产品 基于移动数据流量的体验分析报告---副本全文共38页,当前为第2页。 引言 移动语音通信市场逐渐趋于饱和,基于语音通信的短信、彩铃、彩信...

    QQ文件传输分析

    2.3本章思考 6 3. 文件夹传输 6 3.1文件夹传输 6 3.2本章思考 9 4. 离线文件传输 9 4.1离线文件传输 9 4.2本章思考 10 5. 断点续传 10 5.1断点续传 10 5.2本章思考 11 6. 文件传输设置 11 7. 思考 12

    DataFunSummit:2021年大数据计算架构峰会PPT合集(34份).zip

    DataFunSummit:2021年大数据计算架构峰会PPT合集(34份...实时数据分析平台建设实践 云原生大数据混合算力技术实践 离线计算平台的演进之路 实时计算平台建设实践 实时计算平台架构与实践 Bigo计算平台的建设之路 等等

    PHP实现文本快速查找 - 二分查找法

    (你懂得,小公司不可能为离线分析做一套完整的数据存储服务。大部分数据分析还要借助线上的数据集群) 优化方案的思考 有没有一种方式可以不增加线上的压力,同时提供更高效的查询方式?想过redis,但最终选择用...

    2016大数据技术大会

    2016大数据技术大会,来自一线互联网...​讯飞大数据的实践与思考​ ​大数据发展趋势报告​ Yita:基于数据流的大数据计算引擎 Ranking Relevance in Web Search 京东数据库备份系统进化之路 Qunar实时数据系统实践。

    Python自动化办公实战课,为希望提升工作效率的职场人士设计的Python办公自动化教程

    教程内容丰富,涵盖了文件的批量合并与拆分、数据统计分析、图像中文字的识别与转换等实用技能。特别地,它对比了在线与离线文字识别的方法,提供了针对不同场景的解决方案,并教授了如何通过函数与字典提高文本处理...

    【推荐】最新数据安全解决方案和实践合集.zip

    对数据安全治理的思考; 个人金融信息保护; 工业互联网数据安全白皮书; 合规视角下数据脱敏效果的评估研究与实践; 后疫情时代券商数据安全体系的实践与展望; 互联网用户隐保护策略分析; 混合云场景数据备份技术...

    异步并行批处理框架设计的一些思考

    此外还有针对实时在线流式数据处理方面的,同样也是分布式的计算框架Storm,也能很好的满足数据实时性分析、处理的要求。最后还有SpringBatch,这个完全面向批处理的框架,可以大规模的应用于企业级的

    有关煤炭检测技术的发展思考-论文

    煤炭在作为原燃料利用时,准确、实时、在线获得煤质指标具有十分重要的指导意义,因而在对煤质检验技术进行综述性评介的基础上判识发展趋向,基于煤炭利用对煤炭组成性能、检测的需求以研讨煤质检验技术开发或发展...

    2013年中国数据库大会PPT第一部分

    9.主流开源NoSQL及分布式存储的应用与思考.pdf 10.腾讯在线交易平台统一数据层高一致性解决方案.pdf 11.NoSQL一致性实践:我对CAP的一点认识.pdf 12.MongoDB at Qihoo 360.pdf 13.MySQL Cluster实战初探 .pdf 14.SAP...

    2013中国数据库大会ppt(1)

    主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...

    2013中国数据大会ppt(2)

    主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...

    2013中国数据库大会ppt(3)

    主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...

    Internet Monitor 2014:对数字世界的思考:平台,政策,隐私和公共话语-研究论文

    该结果面向广大公众,汇集了对广泛问题和地区的反思和分析,从对欧洲“被遗忘权”的审查到对移动安全现状的回顾,再到对安全性的探索。试图在网上反击仇恨言论的新一轮运动,并将其提供给辩论和讨论。 我们的目标...

    主流人工智能平台的架构及调优经验总结.pdf

    数据分析过程:问题抽象-》数据域定义-》数据处理-》数据集成-》数据加⼯-》数据集(⽤于数据分析的集合) 离线分析:历史数据 实时分析:运⾏数据 调优⽅案: ·问题抽象:分类、聚类、推荐、关联规则 ·特征获取...

    设计匠艺-第四期

    《设计匠艺》设计匠艺是推酷网旗下的周刊,每周三发布,并且同步发布pdf离线版本,内容以产品设计,用户体验,潮流技术产品分析,视觉交互等为主,每篇文章都由人工整理筛选!周刊地址...

Global site tag (gtag.js) - Google Analytics