`
- 浏览:
884436 次
- 性别:
- 来自:
杭州
-
数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应。Hadoop的设计初衷是存储与分析离线大数据,我认为它的缺点就是不能及时地利用数据中所蕴含的深层价值。
在做深入分析之前,我想从门外汉的角度来说说我自己理解的实时分析是什么样子的。它的目标很明确:尽快地从数据中挖掘出有用的内容来。这牵扯到把计算移动到哪个地方去的问题。数据源本地?数据传输流中?一个集中存储的地方?对数据的分析越靠近数据源就越有效。但一般的数据源都是业务系统,不能允许数据分析占用它的硬件资源。所以我想当前的一些实时分析系统也是取向于后两种场景。
实时分析过后的数据该怎么办,是抛弃掉还是需要继续存储着呢?我认为对数据的分析就如同对石油的提炼一样。高中时看到介绍提炼石油的过程,先分离出航空煤油,再经过步骤分离出普通汽油、煤油等,经过一道道筛选后最后还有渣料能用。数据分析的过程亦如此。要考虑实时,就不能对数据做复杂的逻辑分析,而这正是离线系统的优势。所以,对分析后的数据该怎样处理还是得看数据有没有必要再做深度处理。Facebook就有利用HDFS做中间存储,对数据既做实时分析,又做离线分析的实现。
离线分析现在遇到的一些问题,实时分析也会遇到。系统应该需要很容易地水平扩展,因为实时的数据量挺难预估,实时分析系统就应该可以自动调整容量。MapReduce的优点在于对源数据做切分,然后并行地执行。但怎样利用并行化来提高实时分析的效率也是需要考虑的。当前MapReduce在计算中依赖磁盘来做临时存储,我对这种做法不太认同,还是希望计算中只利用内存与网络,不要让磁盘存取成为影响计算能力的隐患。好像有个系统叫MapReduce Online正在尝试解决这个问题,之后会关注下它的进展。
他山之石,可以攻玉。因为初次接触实时分析,有必要分析下现有实时分析系统的设计架构。Google了一把,当前的实时分析系统有:Yadoo!的S4、Twitter的Storm和IBM的StreamBase等。这段时间会研究它们的需求与设计,以期更好地理解实时分析会遇到哪些问题。
OK,路还很长,得多多努力了
********************************************
这里是我写这些想法之前临时写的提纲:
离线分析的优点是:
可以寻找恰当地分割方式,对任务做并行分析
批量存取数据
可以对数据做复杂的业务处理
离线分析的缺点是:
数据中所蕴含的深层价值得不到及时的利用
实时分析的缺点:
数据量太大,很难有复杂的业务处理
对实时分析提出的建议:
尽量使用内存而不是磁盘
考虑并行化,减少数据压力
架构可水平扩展
********************************************
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域...
2021大数据计算资料合集,共34份。 超融合时序数据库MatrixDB助力工业两化融合 边缘计算在网易场景下的应用实践 私有云Serverless实践 边缘Serverless平台建设 智能边缘融合端云的技术实践 ...实时计算平台架构与实践
目录 总结 背景思考 作用于流量、内容的用户体验 基于数据流量的终端和产品 基于移动数据流量的体验分析报告---副本全文共38页,当前为第2页。 引言 移动语音通信市场逐渐趋于饱和,基于语音通信的短信、彩铃、彩信...
2.3本章思考 6 3. 文件夹传输 6 3.1文件夹传输 6 3.2本章思考 9 4. 离线文件传输 9 4.1离线文件传输 9 4.2本章思考 10 5. 断点续传 10 5.1断点续传 10 5.2本章思考 11 6. 文件传输设置 11 7. 思考 12
DataFunSummit:2021年大数据计算架构峰会PPT合集(34份...实时数据分析平台建设实践 云原生大数据混合算力技术实践 离线计算平台的演进之路 实时计算平台建设实践 实时计算平台架构与实践 Bigo计算平台的建设之路 等等
(你懂得,小公司不可能为离线分析做一套完整的数据存储服务。大部分数据分析还要借助线上的数据集群) 优化方案的思考 有没有一种方式可以不增加线上的压力,同时提供更高效的查询方式?想过redis,但最终选择用...
2016大数据技术大会,来自一线互联网...讯飞大数据的实践与思考 大数据发展趋势报告 Yita:基于数据流的大数据计算引擎 Ranking Relevance in Web Search 京东数据库备份系统进化之路 Qunar实时数据系统实践。
教程内容丰富,涵盖了文件的批量合并与拆分、数据统计分析、图像中文字的识别与转换等实用技能。特别地,它对比了在线与离线文字识别的方法,提供了针对不同场景的解决方案,并教授了如何通过函数与字典提高文本处理...
对数据安全治理的思考; 个人金融信息保护; 工业互联网数据安全白皮书; 合规视角下数据脱敏效果的评估研究与实践; 后疫情时代券商数据安全体系的实践与展望; 互联网用户隐保护策略分析; 混合云场景数据备份技术...
此外还有针对实时在线流式数据处理方面的,同样也是分布式的计算框架Storm,也能很好的满足数据实时性分析、处理的要求。最后还有SpringBatch,这个完全面向批处理的框架,可以大规模的应用于企业级的
煤炭在作为原燃料利用时,准确、实时、在线获得煤质指标具有十分重要的指导意义,因而在对煤质检验技术进行综述性评介的基础上判识发展趋向,基于煤炭利用对煤炭组成性能、检测的需求以研讨煤质检验技术开发或发展...
9.主流开源NoSQL及分布式存储的应用与思考.pdf 10.腾讯在线交易平台统一数据层高一致性解决方案.pdf 11.NoSQL一致性实践:我对CAP的一点认识.pdf 12.MongoDB at Qihoo 360.pdf 13.MySQL Cluster实战初探 .pdf 14.SAP...
主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...
主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...
主流开源NoSQL及分布式存储的应用与思考.pdf 腾讯在线交易平台统一数据层高一致性解决方案.pdf NoSQL一致性实践:我对CAP的一点认识.pdf MongoDB at Qihoo 360.pdf MySQL Cluster实战初探 .pdf SAP HANA深度剖析.pdf...
该结果面向广大公众,汇集了对广泛问题和地区的反思和分析,从对欧洲“被遗忘权”的审查到对移动安全现状的回顾,再到对安全性的探索。试图在网上反击仇恨言论的新一轮运动,并将其提供给辩论和讨论。 我们的目标...
数据分析过程:问题抽象-》数据域定义-》数据处理-》数据集成-》数据加⼯-》数据集(⽤于数据分析的集合) 离线分析:历史数据 实时分析:运⾏数据 调优⽅案: ·问题抽象:分类、聚类、推荐、关联规则 ·特征获取...
《设计匠艺》设计匠艺是推酷网旗下的周刊,每周三发布,并且同步发布pdf离线版本,内容以产品设计,用户体验,潮流技术产品分析,视觉交互等为主,每篇文章都由人工整理筛选!周刊地址...