《大数据平台技术应用解决方案.pptx》由会员分享,可在线阅读,更多相关《大数据平台技术应用解决方案.pptx(62页珍藏版)》请在悟道方案上搜索。
1、大数据平台技术应用解决方案,Content,大数据发展趋势,大数据平台行业实践,大数据平台关键技术,1234,大数据平台案列详述,第二数据平台成为驱动业务创新的新平台,或有金融资产,第一数据平面:交易核心单次、事务性,第二数据平面: 大数据平台并发、查询/分析,金融脉络关系,实时,批量,互联网,大数据业务: 实时在线性 业务持续性 跨多元数据,对大数据平台的要求:企业级质量标准:金融等保、可靠、 易用;支持现有系统的对接。,3,开放性:多分析引擎统一管理,满足多样化的数据分析场景,挖掘能力:支持机器学习、深度学习等新的数据挖掘能力,实现更精准的洞见,数据:存量 . 增量 . 行内 . 行外,社
2、交日志 影像 帐户 明细,行外数据,行内数据,历史数据越来越多,非结构化数据越来越多,社交、网购数据,企业数据平面“在大数据领域,不能充分形成大数据使用能力的竞争者将被淘汰”-McKinsey Global Institute,业务系统帐户 明细 交易,数据分析信用,混合型数据平台-体系架构,新核心系统老核心系统 客户系统 外围系统 渠道系统,外部系统,操作型 数据区,数据 交换区,数 据 采 集 和 交 换 平 台,集成型数据区,实时事件处理平台,分析型数据区,应用服务区,应用服务器,报表 工具,W E 服 务 器,即席查询,数据 挖掘 工具,历史 数据 访问 应用,技 术 缓 冲 层,贴
3、源 模 型 层,共 性 加 工 层,基 础 模 型 层,传统平台,应 用 集 市 层,基础数据平台大数据平台,对应系统:客户管理系统、各类产品系统、帐务处理系统、各类渠 道系统、管理流程系统。功能定位:主要承担面向客户的交易、帐务处理,面向内部的流程、事务管理等功能。数据特征:存储业务处理和流程管理过程中产生的客户、协议、账 户、交易等原始数据,数据基本为当前状态,保存一定周期的交易 流水数据。,混合型数据平台-数据区域,对应系统:主要是历史数据平台。功能定位:根据数据生命周期管理,承担对操作型系统、分析型系统 的历史数据,以及数据集成平台部分历史数据的在线归档保存,为客 户交易明细历史查询、
4、公检法查询等应用提供支持。数据特征:状态类数据采用全表历叱拉链存储,交易类数据保留长期 历史。,操作型数据区,对应系统:基础数据平台、大数据平台和实时事件处理平台。功能定位:实现全行关系型结构化数据、非结构化数据的处理,包 括离线分析和实时事件数据的集中管理和加工,为业务运营和决策 分析提供数据支持。数据特征:1.利用大数据技术,实现ODS、EDW、汇总层数据统计等一系列 的离线数据分析功能,而传统数据库则实现复杂的交于和事务处理 逻辑。2.大数据平台同时可以实现非结构化数据的集中管理,结构化及非 结构化数据的初加工为主;3.实时事件处理平台以实时事件数据的集中管理和加工为主。,集成型数据区,
5、对应系统:统一报表平台、监管报送平台、管理会计、风险管理等系统。功能定位:主要获取数据集成平台提供的汇总数据,按照应用主题 进行数据的高粒度汇总加工、图形化分析和展现。数据特征:存储汇总、聚合类数据,主要以星型结构、宽表等形式 存储,存储周期较长。,分析型数据区,历史数据区,数据处理技术分布式演进趋势:Hadoop成为开放的事实标准,特点:Share Everything结构化、关系型Flash Cache+分布式块存储+IB,SMPSMP+MPP混合MPPHadoop,特点:Share Nothing开放,、全球生态结构化、半结构化、非结构化高性能、实时,特点:Share Nothing结构
6、化、关系型通用的硬件,特点:单机、Scale up性能存在瓶颈扩展性差,内存计算兴起,Hadoop生态系统持续壮大,实时化:内存计算兴起,Hadoop生态系统持续扩大,AMPlab开发的Spark,提供迭代式内存计算模型,非常适合用于数据挖掘算法的并行化预计Spark将成为编写和分享数据挖掘算法的标准平台Spark目前已经成为Apache顶级项目,HadoopHadoop 2.0发布支持多种计算模型调度的Yarn,实现多种计算模型在同一个集群中并存,将帮助Hadoop 进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建,不断吸收更多组建集成到Hadoop。,HDFS,St
7、orm,MapReduce,YARN/Zookeeper,Spark,HBase,Flume,Sqoop,Integration,Search,MachineLearning,Complex Event Process,3rd Party or customized wordload,Solr,MLLIB,融入,混合负载的统一计算平台,满足数据多样化,Content,大数据发展趋势,大数据平台行业实践,大数据平台关键技术,1234,大数据平台案列详述,大数据:提供大数据存储、处理、分析和服务平台,Manager统一管理,通用X86服务器,分布式存储,数据处理平台,大数据基础设施,数据集成 平台
8、,收集 清洗 转换,特征/模型/挖掘/可视/服务,数据洞察/数据服务,电信详单查询、经分分析、 精准营销,银行全生命周期分析、历史明细、 精准营销、在线征信与风控 等,行业 应用,政府交通、公安情报分析、人口管理,海量数据存储,批处理,流处理、交互式分析,HIVE/Impala/Elk,Porter,Miner,DataFarm,Hadoop,Storm,Solr,系统管理,Farmer,元数据管理,Manager,Hadoop API,Plugin API,OpenAPI/SDK,应用服务层,REST/SNMP/Syslog,Data,Information,Knowledge,wisdom
9、,M/RSpark Yarn/ Zookeeper,安全管理,MPP DB,HDFS/HBaseFusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增强,按照场景选择业界最佳实践FusionInsight的DataFarm层提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链, 其中包括相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架FarmerFusionInsight Manager是一个分布式系统管理框架,管理员可以从单一接入点操控分布式集群,包括系统管理(OM/NTP/灾备)、数据安全管理和数据治理,大数据软件平台Fusion
10、Insight,Porter用来简化大数据的数据集成除了开源的Sqoop2支持的DB和HDFS外, porter还支持从SFTP, FTP和NAS进行数据导入和导出除了Sqoop2支持的HDFS外, porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制Sql请求和响应可以通过SFTP和FTP提交, 实现和现有系统的无缝集成轻量汇总的Sql和结果可以通过 SFTP和FTP提交, 并且能够自动调度按天/按月调度。,FusionInsight Porter:大数据全能搬运工,RM DB,HadoopHDFSHBase,SFTPServer,FTP Server,Other Da
11、ta Source,Porter,DB,文件服 务器,MR/spark/Hive,任务提交,目标系统HDFS/Hive,HBase,RDMS,数据,数据,FTP/SFTP/NFS,JDBC,Porter,FusionInsight Miner:基于分布式内存计算的数据分析平台,主要特点:端到端分析平台:一站式平台支撑数据分析全流程特征工程/社交化:特征复用;支持1,000万维度建模算法:自研HiGraph算法, 比MLlib快35倍开放性:对Operator的扩展性;与R无缝对接;与SAS、SPSS等对接;业务驱动:基于业务问题驱动的闭环解决方案,比如推荐引擎使能套件,业务理解,特征提取,模型
12、模型构建,模型 模型评估,模型应用,应用效果评估,结束,开始,模型评估好,应用效果好,典型数据分析流程,数据预处理 数据理解,并行化机器学习算法库(Mahout/MLlib/HiGraph),可视化,金融行业模型使能套件,电信行业模型 使能套件,FusionInsight Miner行业应用使能器(Enabler)通用使能套件,(标签管理、推 荐引擎),数据处理平台,数据探索特征工程 建模分析,0,500,1000,1500,2000,Top1000 Top10000Top60000,Conversion, 40x专家系统学习系统,14000Dimensions,FusionInsight F
13、armer:大数据应用使能器,Server or VM,PaaS,BLU1,Farmer SDK,Deploy on,Deploy on,Register,Manager,RESTMQAccess Load Balance & MQ,Redis,Hadoop,Hadoop API,客户开发的应用Farmer SDK,REST:REQ/RESPBLU2BLU3,Container,大数据实时应用使能器,支撑企业快速开发基于大数据平台的应用。,1、分布式大数据服务框架和标准服务(如推荐)二次开发SDK,透明化访问Hadoop,聚焦业务逻辑高可靠的分布式处理框架,去中心化的负载均衡能力,和服 务实例
14、的弹性伸缩能力基于Activiti的服务编排支持应用的灰度发布隔离的轻量级应用容器2、多协议接入和缓冲简化应用集成高性能的多协议接入部件,通过ALB隐藏内部拓扑细节高性能、高可靠消息队列部件热点数据redis加速,为行业业务负载优化的统一大数据处理平台,FusionInsight用100开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式所有的组件都通过Manager提供的插件框架来按需安装,DSL,IDE,分布式计算框架,HDFS/HBase,Pig,Hive,Flume,Loade
15、r,Integration,BatchProcessing,InteractiveSearch Query,MachineLearning,Event Stream Process,Impala,Solr,MLLIB,分布式存储,StreamingCalculation,基础设施,Standard Server,IMC Server,Storage Server,Pluggable Accelerator,Network,SparkStreaming,CQL,Elk,HiGraph,MPP DB,SQL能力支持(SQL-on-Hadoop),每一种SQL on Hadoop产品都在尽量满足某一
16、类应用的特征,典型需求:interactive query (ms3min)data analyst,reporting query (3min20min)data mining,modeling and large ETL (20 min hr day),基于应用场景选择最适合的流处理技术,Batch,Streaming,Mini-Batch,Spark-Streaming,Storm,Spark Streaming:微批流式计算适用于在Spark集群上同时提供更低时延要求的微批流处理处理,如KPI统计等Storm:事件驱动模式的实时计算适用于更低时延要求(毫秒级),高并发的实时事件处理场景
17、,1 node,Mini-batch is set to 5s,安全,可靠,所有业务和管理节点HA跨数据中心容灾、备份第三方备份系统集成在线更换硬盘HBase容灾业界最早推出,代码基线是Apache开源经过系统STRIDE分析加固完善RBAC和多租户体系与现存AAA系统标准协议对接全方位数据审计功能STRIDE+电信系统安全红线,易用,易安装,集成NTP等易运维,增加图形化运维易开发,标准接口+实用案例易定位,日志收集搜索HBase可视化建模,可靠、安全、易用、高效,高效,-平台核心代码性能优化-高性能分析挖掘算法(Miner)-存储效能提升(EC,ARM)高性能网络优化(RDMA)新型存储优
18、化(大型SSD),高效-SparkSQL:平易近人,快速上手,HQL,SQL,Unresolved Logical Plan,Logical Plan,Optimized Logical Plan,Physical Plans,Schema Catalog,Relation Execution Operators,Native RDDs,语法增强,SQL Parser,SQL parser:实现插件式的SQL Parser,基于插件接口实现SQL99语法解析。Logical Plan:新增SQL99LogicalPlans,支持SQL99逻辑计划。元数据管理:使用Hive metastore进
19、行元数据管理,与社区演讲发现对齐。性能提升:原则上重用社区的优化器,必要时增加SQL99OptimizerRules,新增and/or优化,inner join优化,hive index优化,应用场景价值:SQL是一个常用的分析语言,客 户接受度较高,各种业务场景对SQL诉 求也较明确。解决方案方案:基于插件式方案构建基于Spark SQL 框架的差异化语法解析器和性能优 化器用户价值实现标准SQL的TPC-DS用例99个全部通 过。满足客户常用的标准SQL诉求。,高效-Spark Carbon :提升查询效率,Cube Engine,Distributed Data Store (HDFS)
20、,Cube File,Cube File,Cube File,CubeProcessor,CubeProcessor,CubeProcessor,Spark,RDDPartition,RDDPartition,RDDPartition,Spark Core,Spark Core,Spark Core,OLAP Planner,Spark Application (Cube Load)EncodingEncodingEncoding,DataSource API,特点:,分布式,多维索引,物化视图,分布式入库,Schema固定,存储:,计算:,语言:,CubeFile,一种按多维Key排序的文件
21、格式HDFS + Shortcut基于Catalyst框架新增OLAP Planner,对Cube支持过滤下压、计算下压等优化Cube Processor: Cube数据读取,跳转,聚合计算使用SparkSQL DMLDDL:新增CREATE CUBE, LOAD INTO CUBE,Node1,Node2,Node3,Carbon性能对比,120亿行记录,20个维度,4个度量,原始数据1.5TBSparkSQL: Cube文件380GB;物化视图增加130GB;Impala:336GB,PL/SQL,SQL99,SQL2003,HQL,HDFS,HBase,Elk Sql ParserSql
22、 Eexcute,jdbc/odbc/,BI,Web,ETL,Data Explorer,Hive Metadata,采用通用的SQL标准接口,全面兼容传统的数据库SQL和Hadoop的HQL全面支持传统应用的接口JDBC、ODBC,并提供丰富的扩展接口如PL/C,PL/Jaca,PL/Python交互式查询性能达到或超越Impala灵活的存储格式HDFS(ORC、Parquet),HBase(KV),Elk与Impala性能对比,TPC-H(单位:秒/查询N),测试环境: 4 节点: 2 *8 core CPUs, 96GB RAM, 6 7200rpsSATA 盘, 10GE网卡, HDF
23、S 3副本.,全面超越Impala,大部份指标是impala两倍,0,100,200,300,400,500,600,700,1 2 3 4 5 6 7 8 9 10111213141516171819202122,Impala ELk,Elk: 交互式SQL on Hadoop,高效-HBase:二级索引,智慧 HiGraph,高性能优质算法库,Mahout:基于MR的并行算法库,MLlib:基于Spark的并行算法库,HiGraph:超过60种算法,半数由 研发及优化,ClouderaHortonworks,FusionInsight,性能提升2-3倍,线性加速,优质算法,HiGraph,
24、网络平面隔离,集群管理平面,集群外维护网络,OMS-Server,集群业务平面APP-ServerAPP-Server,WebUI-Client,Hadoop是全分布式计算系统,要求业务节点之间全互 联。为应对由此带来的可靠性、安全性风险,FusionInsight支持将网络划分为三级:集群业务平面、集群管理平面和集群外维护网络,彼此之间实施物理隔离。实施网络隔离,可以避免业务平面的高负载阻塞集群管 理通道,也可以阻止外部攻击者通过管理通道入侵实际 业务数据。,电信级可靠性,业务可靠性:系统无单点: OMS,HDFS,HBASE,YARN,HIVE,OOZIE,HUE,ZOOKEEPER,BO
25、OKEEPER采用主备,负荷分担方式实现服务无 单点故障数据可靠性:管理节点HA:OMS节点及所有业务组件中心管理节点实现HA跨数据中心数据备份:HBase集群通过HLOG准 实时复制,HDFS/Hive集群通过BackupAdmin 异步复制实现跨数据中心灾备硬盘热插拔:支持在线集群硬盘更换不影响业务.OS层可靠性加固: RAID/OS写缓存保护实现掉电数据保护Raid策略: OS,OMS,NameNode,ZK 及HDFS数据节点采用不同硬盘分区及Raid策略,兼顾性能情况下保证数据可靠性,第三方备份系统集成:数据可以灵活的备份在外部,1,1,1,1,1,1,1,2,2,3,3,3,4,4
26、,6,5,7,8 系统如NAS、磁带库,只是和NBU等备份软件集成,6,6,5,7,8,1,Hadoop cluster,NAS,异地灾备表级别集群在线备份,用于在线业务故障灾备,数据恢复,批量导出,本地备份支持库级别本地备份、批量导出 和数据恢复,支持全量、增量两 种模式。用于集群故障、人为误 操作导致的数据丢失,数据备份与集群容灾,本地备份,LdapServer,HM,HM,HDFS,RS,RS,HBase,LdapServer,HDFS,RSRS,HBase,HLog Sync,Authentication Data Sync,敏感数据加密存储,Hive/HBase,HDFS,敏感数据写
27、 入,加密/解密,敏感数据 读取,*($%!%$#$!(*&*5!$!%$!$!%#$%#!$#!,非敏感数 据,非敏感数据,技术特点保密性高:采用业界流行的算法加密。除业务接口外,其他手段读取文件均为乱码(如通过shell、或HDFS接口查看)。灵活:加密算法插件化,支持AES、SMS4等,允许用户自定义。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。业务透明:上层业务只需指定敏感数据(Hive表级/列、HBase表/列族/列级加密),加解密过程业务完全不感知。,HiveHBase,Content,大数据发展趋势,大数据平台关键技术,大数据平台行业实践,1234,大数据平台案列
28、详述,业 务 价 值,应 用 场 景,营销支持,产品运营,内部管理,风险管控,实实时时风征控信,反 欺 诈,客 户 风 险 报 告,运 维 日 志 分 析,信 息 安 全 分 析,风险集成的业 务运营,高效的运营效 率,实时的风险决策,员 工 挽 留,大数据应用场景,优化管理流程,提升运作效率降低管理成本,数据,行内业务数据账户/流水/产品/组件日志,行内非业务数据运维日志/对内服务系统数据,新型数据移动应用/微信/呼叫中心/微博,第三方数据互联网/电信/医疗/交通/咨询报告,客户标签,对公客户细分,商机挖掘信息,零售客户评分,客户贡献度,客户风险测评,产品运营KPI,黑名单,知识图谱,品牌美
29、誉度,第三方资信,用户位置,用户消费倾向,大数据平台参考架构,数据 采集,数据转换,平台管理,结构化数据客户数据账务数据,第三方数据微信微博,流式数据,刷卡事件,结构化转换,统计/关联,非结构转换,XML/JSON文本,多媒体转换视频摘要 语音转文本,半/非结构数据挖掘,文本分析分词,视频分析,语义,NLP,互联网分搜析索社交网络 推荐引擎,多媒体分影像析分析音频分析,过滤/匹配,结构化数据挖掘分类聚类,预测,关联,流处理,ESP/CE P,流式数据处理RTD,商业智能(BI)报表多维分析引擎,实时查询,数据服务批量查询,访问框架,分布式缓存,数据可视数据探察,数据多维展示,元数据管理,作业调
30、度,数据安全管理,非结构数据日志 呼叫中心语音网站点击流,数据集市,实时计算,交互式探索,多维关联,数据聚集,应用计算,数据 存储,基础数据区,实时查询区,公共访问区,应用数据区,数据 采集,转换,平台管理,结构化数据,第三方数据,数据 结构化转换,非结构转换,多媒体转换,半/非结构数据挖掘,文本分析分词,视频分析,社交网络,推荐引擎,多媒体分影像析分析,过滤/匹配,结构化数据挖掘,预测,关联,CEP,流式数据处理RTD,报表,商业智能(BI)多维分析引擎,实时查询,数据服务批量查询,访问框架,分布式缓存,数据多维展示,元数据管理,作业调度,数据安全管理,数据集市,实时计算,数据聚集,数据,存
31、储,应用数据区公共访问区,大数据平台总体框架-技术视角,流式数据刷M卡Q事件,kafka,客F户TP数据,账S务q数oo据p,非结构数据日志 F呼lu叫m中e心语音网F站T点P击流,微信Crawler 微博,H基D础F数S据区,实时查询H区BASE,XMML/J/SRON文本,视频摘S要par语k音转文本,Storm流处理,Miner(Ma语ho义ut/MLLib/HiGrap音h频)分析,分类SAS 聚类,SQ交L互o式n 探索,Hadoop,互联网分S搜析o索lr,Cognos,HIVE/I统m计p/关al联a,分布式I应M用DB计算,数据T探a察bleau,数据可D视3.js,多维关联G
32、P,Yarn,M/R,NLPSpark,HIVE/Impala,Content,大数据发展趋势,大数据平台关键技术,大数据平台案列详述,1234,大数据平台行业实践,Content,大数据平台案列详述,4,TD数仓卸载HDS运维日志实时分析影像存储智能运维业务,现有数据仓库应用负载卸载-现状和挑战,现状一般采用贴源层+基础层+应用层三层数据架构数据贴源层存放贴源数据数据贴源层数据除了用来加工为基础层数据 外,一般很少被下游应用直接用到,可视为冷数 据数据贴源层占据EDW宝贵存储资源贴源跑批占据大量EDW系统资源,挑战伴随业务的增长,数据增长快,扩容压力大通常采用国外厂商一体机,存储成本高,扩
33、容成本大跑批占用数据仓库时间窗口越来越长,可使 用时间窗口越来越少,给数据仓库的使用带来巨 大压力,数据仓库 应用层 基础层 贴源层,一体机,核心,信贷,中间业务,信用卡,网银,数据源,FTP,卸载加载,作业管理,ETL平台,CRM,信用评级,绩效考核,精准营销,管理报表,下游应用,数据转数换据转换,现有数据仓库应用负载卸载联合创新方案,联合创新方案与金融机构一起联合创新,将数据仓库系统 中的贴源批处理过程迁移至基于通用X86服务器 的使用大数据技术的Hadoop或MPPDB平台注:方案过程见动画,卸载平台,基础层,客户价值开放,不被单一供应商锁定;提高数仓体系拓展能力、降低拓展成本降低数据存
34、储成本减少数仓跑批时间窗口,提高数仓使用效率,数据仓库应用层基础层贴源层,核心,信贷,中间业务,信用卡,网银,数据源,CRM,信用评级,绩效考核,精准营销,管理报表,下游应用,卸载平台要求卸载平台能够满足一定的处理时间窗口要求卸载平台具有较低的每TB数据成本卸载平台具备非常好的水平扩展能力卸载平台支持通用X86服务器卸载平台能够提供较好的企业级特性(可靠 性、易管理性、易用性),满足一定的性能SLA,X86服务器,ETL,ETL,贴源层,一FTP体 机,Content,大数据平台案列详述,4,TD数仓卸载HDS运维日志实时分析影像存储智能运维业务,历史数据应用四种模式,HDS区整体视图,归档,
35、批量供数,在线查询,应用计算区指标计算区,查询服务区统一在线查询,HDS区查询集群在线同步查询区,在线数据(HBASE),在线同步查 询服务,在线异步查询服务,数据源源数据区主档全量主档增量 明细增量,HDS区归档集群,接入数据区,组合计算区 多表关联Hbase装载,主档全量,主档增量明细增量,数据源源数据区主档全量,主档增量,明细增量,应用加工计算区(Hive)HQL数据加工MR数据加工,批量供应数据区表截面文件加工数据文件,数据源源数据区主档全量,主档增量,明细增量,归档数据区(Hive)x系统.x表归档数据x系统.x表归档数据,HDS区归档集群,接入数据区,主档全量,主档增量明细增量,应
36、用加工计算区(Hive)HQL数据加工MR数据加工,批量供应数据区表截面文件加工数据文件,归档数据区(Hive)x系统.x表归档数据x系统.x表归档数据,接入数据区,HDS区归档集群 组合计算区,多表关联 Hbase装载,主档全量主档增量明细增量,应用加工计算区(Hive),HQL数据加工MR数据加工,归档数据区(Hive)x系统.x表归档数据x系统.x表归档数据,4,4,关键技术:HBase二级索引+Phoenix+Spark,HBase二级索引特性支持在非RowKey列上建立索引,大幅提高检索 速度。使用Phoenix为HBase提供基础SQL能力,在使用HBase高速查询能力的同时,降低
37、系统的学习使用成本。构建统一的混合结构数据存储平台,通过Spark支持全量业务数据+外部数据的挖掘分析。,高性能、高并发:HBase规模可达到数十亿行以及数百万列,同时读、写访问可以达到实时级别。提供SQL支持:降低学习成本和系统改造成本。易扩展:HBase基于HDFS文件系统,性能线性增长,利于横向扩展。HBase:较开源产品提供二级索引、Region多点分割、一千公里容灾 备份等增强特性,其中二级索引特性已被社区接受并纳入Phoenix组 件。Spark:贡献了Spark on HBase( Astro)特性,可以使用SparkSQL 操作HBase数据,执行高效、复杂的查询操作,为HBa
38、se提供在线分 析引擎。,特性价值,特性描述,目 标 行,数 据 扫 描 区 域,无索引:“Scan + Filter”,扫描大量数据,a00004 *,Content,大数据平台案列详述,4,TD数仓卸载HDS运维日志实时分析影像存储智能运维业务,项目背景与现状,问题数据量巨大,效率低:日志收集与检索的效率低、成本高, 无法满足故障排查问题定位的快速运维需求。因日志数据量 巨大,监控系统目前只对日志文件进行基本的监控,只对日 志大小、日志更新时间进行监控。数据类型复杂:传统关系型数据库不能处理半结构化或者非 结构化数据Splunk日志分析: Splunk日志分析工具仅支持离线的、片 段的日志
39、分析,且许可成本较高, 仅应用于少量的应用系统 , 不满足应用日志分析需要。,46,现状,每日产生大量的应用日志,分布于各应用系统及历史磁带监控系统目前对日志文件进行基本的监控,只对日志大小、日志更新时间进行监控,利用价值不大。,场景特点,实时性要求高(高吞吐、低延迟)*实时:达到秒级以内大数据量的离线分析(总数据量、日增数据量都不断增长)*历史回溯:一小时以外的历史统计分析*历史日志检索:日志快速检索,故障快速定位,业务应用,日志离线分析业务性能分析运维风险评估模型训练,历史日志检索日志集中存储日志快速检索故障快速定位,日志实时分析实时风险探测业务实时监控模型训练,一体化日志分析平台,项目目
40、标和定位建立企业级的日志采集、存储、分析一体化平台,运用数据建模、离线分析、实 时流计算、搜索引擎等技术,实现业务性能分析、运维风险评估、实时预警监 控、日志快速检索等功能,促进业务能力与运维水平的提高,本期项目内容,1、日志采集子平台搭建企业级的分布式日志采集平台支持文件、Syslog等主流日志源实现日志文件的实时采集与离线采集日志采集平台架构灵活扩展,2、历史日志文件检索平台历史日志文件分布式存储基于开源搜索引擎Lucene,实现 历史日志文件检索支持全文检索与可配置的文本分析,4、实时日志分析预警平台使用流计算技术实现在线日志分析平台提供实时接口与监控等第三方应用系统 对接,实现实时分析
41、结果的消费实时风险探测业务实时监控,项目需求,48,3、离线日志分析平台基于HADOOP搭建离线日志分析平台分析模型设计与训练优化日志分析结果报表展示运维风险评估业务性能分析,技术方案-系统逻辑架构,X86服务器,X86服务器,X86服务器,X86服务器,服务器,应用日志,系统日志,渠道,网银,柜面,KafkaFlume,Storm,Hive,MapReduce,流计 算集 群,业务实时反欺诈监控 业务系统,RDB,ETL,批量,HDFS,实时处理,实时搜索,消息中间件,分析模型,HBase,基于大数据平台的二次开发应用,离线分析,网络日志,风险实时预警与监控集中监控系统,ECC大屏,故障协同处理日志查询平台,日志搜索集群Solr Lucene,离线分析集群Phoniex,技术方案数据处理流程,APP,WEB,DB,个人网银,HDFS分布式存储,M/R,HBASE,报表工具,SOLR,日志检索平台,Storm1Storm2Storm集群,