大数据云采集平台建设方案.docx

上传人:报** 文档编号:5758 格式:DOCX 页数:86 大小:8.61MB
返回 下载 相关 举报
大数据云采集平台建设方案.docx_第1页
第1页 / 共86页
大数据云采集平台建设方案.docx_第2页
第2页 / 共86页
大数据云采集平台建设方案.docx_第3页
第3页 / 共86页
大数据云采集平台建设方案.docx_第4页
第4页 / 共86页
大数据云采集平台建设方案.docx_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《大数据云采集平台建设方案.docx》由会员分享,可在线阅读,更多相关《大数据云采集平台建设方案.docx(86页珍藏版)》请在悟道方案上搜索。

1、大数据云采集平台建设方案 V2.5 大数据云采集平台建设方案  大数据云采集平台建设方案 V2.5 大数据云采集平台建设方案 V2.5 目 录  1引言 . 5 1.1项目背景 . 5 1.2项目目标 . 5 1.3建设原则 . 6 1.4参考规范 . 7 1.5名词解释 . 9 2云数据采集中心 . 10 2.1需求概述 . 10 2.2总体设计 . 13 2.3核心技术及功能 . 18 2.3.1分布式文件存储技术  18 2.3.2分布式并行计算技术  27 2.3.3分布式数据库技术  31 2.3.4负载均衡  34 2.3

2、.5数据采集  39 2.3.6开放平台  45 2.4部署方案 . 48 2.5实施计划 . 50 大数据云采集平台建设方案 V2.5 3大数据计算平台 . 52 3.1需求概述 . 52 3.2总体设计 . 52 3.3应用建设 . 57 3.3.1收视率统计  57 3.3.2智能推荐  60 3.3.3拍立购  63 3.4部署方案 . 69 3.5实施计划 . 72 4性能及成本分析 . 73 4.1运营商网络性能分析 . 73 4.2服务器网卡性能分析 . 73 4.2服务器内存性能分析 . 73 4.3服务器硬盘性能分析 . 74

3、 4.4服务器 RAID模式分析 . 74 4.5D2B性能分析 . 75 4.4DMQ平台性能分析 . 75 5存储空间规划表 . 76 6机房选型 . 77 大数据云采集平台建设方案 V2.5 7安全设计 . 78 8风险分析 . 81 5 大数据云采集平台建设方案 V2.5 1引言  1.1项目背景  根据 XX智能战略的规 划 : 做强终端 、 云平台建 设 、 大数据商业模 式 , XX正迈 向大数据时代 , 当前正面向所有智能终端提供优质的服务 , 同时通过终端传感器或 数据采集服务能够获取海量的数据,并且数据量会以 TB级剧增。因此 XX迫切需 要建设一套高性

4、能、高安全性、高可靠性,可扩展性的云数据采集中心,并搭建一 个数据中 心 支撑平台 , 以 满足当今高速增长的数据存储 、 管理 、 计算的需求,同时 便于将来拓展和进一步的改造。  目前 XX 数据中心是主要基于 XX 黑电、白电、浏览器等产品终端传感器采 集的海量文本、图片数据以及用户数据,为 XX 后续其他数据分析挖掘项目提供 数据支撑的信息平台 。 对应方 针 终端内容服务 、 云服务支撑与数据挖掘 、 个 性化数据价值探索。  建立统一有效的云数据采集中心有利于 XX大数据的管理,符合 XX新的发展 战略 , XX黑电和白电产品终端传感器采集的数据有用户行为的文本

5、数 据 ( log)、 台标 等图片数据以及自建的影视知识库的结构化数 据 、 电商平台的海量镜像数 据 。当 XX的用户量和采集的数据量与日俱增的时候 , 数据中心必须能通过添加更多服务 节点来扩展性能和负载能力 , 保证高可扩展性和高可用性从而满足 XX业务发展的 需要。  1.2项目目标   搭建分布式存储平台(能够存储海量非结构化数据和结构化数据)、分 布式并行计算平台等等,满足海量数据的采集、存储、计算的需要,平  6 大数据云采集平台建设方案 V2.5 台必须具备高可用性,高扩展性,高可靠性要求。  为 XX 后面的产 品 (收视率统计 ,

6、智能推荐系 统 ,拍立购 , 开放平台等等) 的应用和实施打下坚实的基础,为集团 XX的大数据提供运营支撑。   云中心初期建立至少保证可以正常运营 12年 , 硬件选型 , 软件开始要 考虑到今后大规模扩容的要求。   技术平台要有能力支持数据量最高 1000W终端数量的数据存 储 、 数据计 算、信息推荐等的能力。  1.3建设原则  基于本项目的建设要求,本项目将遵循以下建设原则:   前瞻性和高标准 整个项目要按照企业对大数据应用的需要的高要求和高标 准建设 , 参考 行业标杆应用,建立满足需求,面向未来的目标,整个项 目具有一定前 瞻

7、性。   经济性和实用性 整个项目以现有需求为基础 , 充分考虑未来发展的需要来 确定系统的架 构,既要降低系统的初期投入,又能满足服务对象的需求, 同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基 础平台、应 用软件应提供完备的整合方案。   先进性和成熟性 为了确保项目具有较长的生命周期,应充分考虑到管理 创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成 熟技 术,满足业  务需求。  7 大数据云采集平台建设方案 V2.5 高性能和安全性 规范地进行系统建设和开发,提供合理且经济有效的应 急方案,确保系统的稳定,向各类服

8、务对象提供可靠的服务。具有安全 性,在系统遭到 攻击或崩溃时能快速恢复,确保重要数据的机密性和 完整性。  1.4参考规范   GB9361-88计算站场地安全要求   GB50173-93电子计算机机房设计规范   GB2887-89计算站场地技术条件   GB50174-2008电子信息系统机房设计规范   GB50462-2008电子信息系统机房施工及验收规范   GB50311-2007综合布线工程设计规范   GB50312-2007综合布线系统工程验收规范   GB50395-2007视频安防

9、监控系统设计规范   GB50263-2007气体灭火系统施工及验收规范   GB50394-2007入侵报警系统工程设计规范   GB/T20269-2006信息安全技术 信息系统安全管理要求   GB/T20984-2007信息安全技术 信息安全风险评估规范   GB/T22239-2008信息安全技术 信息系统安全等级保护基本要求   GB/T22240-2008信息安全技术 信息系统安全等级保护定级指南   GA/T388-2002B计算机信息系统安全等级保护管理要求   GB/T8567-1988计算机软

10、件产品开发文件编制指   GB/T11457-1995软件工程术语  8 大数据云采集平台建设方案 V2.5 GB/T11457-2006信息技术软件工程术语   GB/T16260.1-2006软件工程产品质量第 1部分 :质量模型   GB/T16260.2-2006软件工程产品质量第 2部分 :外部度量   GB/T16260.3-2006软件工程产品质量第 3部分 :内部度量   GB/T16260.4-2006软件工程产品质量第 4部分 :使用质量的度量   GB/T14394-2008计算机软件可靠性和可维护性管

11、理   GB/T17544-1998信息技术软件包质量要求和测试   GB/T18221-2000信息技术程序设计语言、环境与系统软件借口独立于 语言的数据类型   GB/T18491.1-2001信息技术软件测量功能规模测量第 1部分:概念 定义   GB/T18492-2001信息技术系统及软件完整性级别   GB/Z18493-2001信息技术软件生存周期过程指南   GB/T20157-2006信息技术软件维护   GB/T20272-2006信息安全技术操作系统安全技术要求   GB/T20008-200

12、5信息安全技术操作系统安全评估准则   GB/T20009-2005信息安全技术数据库管理系统安全评估准则   GB/T20918-2007信息技术软件生存周期过程风险管理   GB/T8566-2007信息技术软件生存周期过程   SJ/T10367-1993计算机过程控制软件开发规程   SJ/T11234-2001软件过程能力评估模型   SDO(ServiceDataObject)forJavaSpecificationV2.1 9 大数据云采集平台建设方案 V2.5 SCA(ServiceComponentArchitect

13、ure)JavaEEIntegrationSpecificationV1. 00 Java2Platform,EnterpriseEdition CapabilityMaturityModelIntegration(CMMISM),Version1.1 ExtensibleMarkupLanguage(XML)1.0(FifthEdition) WebServicesBusinessProcessExecutionLanguagev2.0 1.5名词解释   S2DFS: 简单存储分布式文件系 统 ( SimpleStorageDistributedFileSystem)  

14、; D2B:分布式数据库( DistributedDatabase)   JSS:作业调度服务( JobSchedulerService)   DCS:数据计算服务( DataComputerService)   MPS:消息处理服务( MessageProcessService)   SDS:流数据处理服务( StreamDataService)   DMQ:分布式消息队列( DistributedMessageQueue)   JGS:作业生成服务( JobGenerationService)   ACS:自动清理服务进

15、程( AutomaticCleaningServices)   HTTP:超文本传输协定( HyperTextTransferProtocol)   SMB:服务器信息块协议( ServerMessageBlock)  10 大数据云采集平台建设方案 V2.5 2云数据采集中心  2.1需求概述  根据 XX的阶段规划,第一期云数据采集中心的建立至少满足 1至 2年内的 数据存储和计算规模,需要满足 200万台各种智能终端的数据存储和计算规模。 今后整个云数据采集中心的技术平台和架构需要轻松扩展到支持 1000万台规模 的各种智能终端的数据存储

16、和计算规模。  11 大数据云采集平台建设方案 V2.5 以下的数据为预估数据(基于小范围的实验数据为依据 ) :  数据类别 文件 (记录 )大小 1 文件 (记录 )数量 1 文件 (记录 )大小 2 文件 (记录 )数量 2 台标数据(原始数据,  1 天周期)  约 16KB/台 /天  (由 200Kb/台 /天而得 ) 约 36个文件 /台 /天 约 32GB/200万台 /天 约 7200万个 /200万台 /天  行为数据(原始数据,  1 天周期)  约 60KB/台 /天 (记录 ) (由 40

17、0Kb/台 /天而得 ,加上了 10KB的索引记录 ) 约 50KB/台 /天 (文件 ) (由 400Kb/台 /天而得 ) (平均估值)  约 100条记录 /台 /天 (记录 ) 约 100个文件 /台 /天 (文件 ) (平均估值)  约 120GB/200万台 /天 (记录 ) 约 100GB/200万台 /天 (文件)  (平均估值)  约 2亿条 /200万台 /天 (记录 ) 约 2亿个 /200万台 /天 (文件)  (平均估值)  行为数据(原始数据,  永久保存,压缩处理)  约 60KB/台

18、 /天 (记录 ) (由 400Kb/台 /天而得 ,加上了 10KB的索引记录 ) 约 50KB/台 /天 (文件 ) (由 400Kb/台 /天而得 ) (平均估值)  约 100条记录 /台 /天  约 100个文件 /台 /天  (平均估值)  约 45TB/200万台 /1年 (文件, 加上元数据描述文件)  (平均估值)注:记录的 大小约为 10GB 约 35万条 /200万台 /1年(记录)  约 35万个 /200万台 /1年(文件)  (平均估值) 注: 128MB/1个文件  行为分析 /收视率

19、统计  /推荐 /电商索引等记 录  约 10KB/1条 (记录 ) (平均估值)  约 10TB/1年(记录)  (平均估值)  约 10-15亿条记录 /1年(记录)  (平均估值)  至少 6 大电商的镜像数  据  约 30KB/1个 (文件 ) (平均估值)  约 10亿个 /1年 (文件 ) (平均估值)  约 30TB/1年(文件)  (平均估值)  13 大数据云采集平台建设方案 V2.5 以 1 年为计算周期 ( 数据整合、压缩、清洗后 ) ,初步

20、估:  1、 数据记录:约为 10-15 亿条;  2、 文件个数:约为 10-12 亿个;  3、记录总大小 : 约为 10TB; (双份副本 : 需要约 20TB 存储空 间 )  4、文件总大小 : 约为 75TB; (双份副本 : 需要约 150TB 存储空 间 )  5、总容量大小:约为 85TB; (双份副本:需要约 170TB 存储空间)  为了数据的高可靠性,为每份(文件 /记录)建立镜像副本,所以总容量初 步可以规划约为 170TB。  2.2总体设计  整个云数据采集中心分为四部分:硬件资源层、

21、软件平台层、软件应用层、 智能终端层。  硬件资源层主要指实体硬 件 设备 , 包括用来存 储 数据的光纤阵列柜和存储服 务器 , 用来作统计 、 分析以及搜索用 的 计算服务器 , 用来部署分布式消 息 ( DMQ)  /WEB/APP 软件的 WEB 及消息服务器,用来部署用 PostgreSQL 关系数据库软 件的应用数据库服务器 , 用来部署作业调度服务进 程 ( JSS) 的作业调度服务器。 作为数据通信用的全千兆三层交换机等 等 。 其中光纤阵列柜主要用来存储统计分 析后的粗颗粒度数据 。 存储服务器用来部署分布式文件系统和分布式数据库 , 同 时 存储非结构化

22、和结构 化 (台标图片 , 电商图片等等 ) 和结构化数 据 (行为数据, 索引数据 , log 数据 , 清理后的细颗粒度数据等等 ) 。 计算服务器主要用来完成数 据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服  14 大数据云采集平台建设方案 V2.5 务器和计算服务器合二为一 , 所以该服务 器 同时具有计算和存储数据的功 能 , 前 期也可以考虑把作业调度服务进程( JSS)进程部署在存储 /计算服务器上。由于 云数据采集中 心 需要面对多种宽带用户( 电 信、移动、联通 ) ,所以, 数 据中心 的对外的网络需要直连上电信 、 移动 、 联通三家公

23、司的网络 , 保 证 以上三家公司 间的通信性能高速和可靠。  软件平台层 是 云数据采集中 心 的核心支撑层 , 也是我们这次方 案 设计和实 施 的主体部分,在核心技术章节会对 “ 分布式文件系统( S2DFS) ” 、 “ 分布 式数 据 库 ( D2B) ” 、 “ 分布式消息服 务 ( DMQ) ” “ 作业调度服 务进 程 ( JSS) 、 数 据计算服务进程( DCS) ” 主要部分加以详细的描述。 软件平台层 的所有服务器  都 统一部署的 64 位操作系统 CentOS6.5(也可以选择 RHEL6.5x64) ;其核心软 件或者进程有:分布式文件系统 (

24、 S2DFS) 、分布式数据库 ( D2B) 、作业调度服 务进程 ( JSS) 、数 据 计算服 务 进程 ( DCS) 、 作 业生成 服 务进程 ( JGS) 、 消 息处 理服务 进 程 ( MPS) 、 流 数据处 理 进程 ( SDS)等 等 。 WEB 及应用服务器软件 ApacheIntel千兆网口 4*GbNIC; SATA3企业级 硬盘 8*3TB:RAID10做数 据盘  (保证高性能、高可靠性 的同时,单台有效空间为 12TB);冗余电源;  2. 主要用来存储非结构化和结 构化数据:日志、行为记 录;图片、视频、文档、 网 页等文件、索引等记录;

25、部 署备份数据也可以存储在该 存储集群上。  3. 存储 1年的 200万终端的 数 据量,加上网爬 1年的 电商 数据,约 85TB,作镜 像模 式,则需约 170TB存 储空 间;  4. 前后 2两个执行项目共计 投入 16台存储服务器: 总 192TB(镜像后: 96TB)  1. 操作系统: RHEL6.5x64或者  CentOS6.5x64(该类设备上都 要部署)  2. 分布式文件系统: S2DFS(该 类设备上都要部署)  3. 数据计算服务进程: DCS(该 类设备上都要部署)  4. 作业调度服务进程:

26、 JSS(部  署在其中 2台设备上,主 /备)  5. 自动清理服务进程: ACS(部  署在其中 2台设备上,主 /备)  6. 作业自动生成进程: JGS(部  署在其中 2台设备上,主 /备)  7. 分布式数据库: D2B(该类设 备上都要部署)  10 2. WEB及消  息服务器  1. 2U机架服务器; IntelXeonE5-26202*CPU:12 核心; 128GBECC服务器 内存 条; Intel千兆网口 4*GbNIC; SATA3企业级 SATA硬盘 2*4TB:RAID1;

27、 冗余 电源;  2. 主要用来部署 WEB/APP 软件,部署分布式消息软 件平台,缓存上传上来的 采集数据和网络爬虫数 据;  1. 操作系统: RHEL6.5x64或者  CentOS6.5x64(该类设备上都 要部署)  2. 分布式消息平 台 : DMQ(该类 设备上都要部署);  3. WEB及应用服务中间价: Tomcat或者 JBOSS(该类设备 上都要部署)  4. 消息处理服务进程: MPS(该 类设备上都要部署)  5. 实时流数据处理进程 : SDS(该 类设备上都要部署)  6 49 3.

28、 负载均 衡  服务器  1. 机架服务器; IntelXeonE5- 26201*CPU:6核心; 64GBEXX服务器内存 条; Intel千兆网口 2*GbNIC; SAS硬盘 10K:2*300GB:RAID1; 冗余 电源;  1. 操作系统: RHEL6.5x64 或者 CentOS6.5x64( 2台设备上都要 部署)  2.Nginx1.4.5x64forLinux(该类 设备 上都要部署)  4 4. 华为全 千  兆交换机  产品型号 S5700-52C-PWR-SI 产品类型千兆以太网 应用层级三层背板

29、带 宽 256Gbps包转发率 132Mpps 传输方式存储转发方式 接口类型 48个  10/100/1000Base-T,上行支持 4 1000Base-XSFP, 2 10GESFP+, 4 10GESFP+插卡  接口数目 52口  传输速率 10M/100M/1000Mbps 扩展插槽 4 堆叠支持可堆叠 1U机架式  2 5. 标准图 腾  机柜  42U服务器机柜: 600mm宽  *1000mm深 *2000mm高 ,内含 4 个 风扇、 10块托盘。  4 6. 线材、 工  具、其 他

30、 材料等等  安普超 5类双绞线、作线工 具、 管材等等  若干  2. 软件配臵表  序号 名称 配臵描述 部署硬件 数量 用途  1. S2DFS 分布式文件系统 存储及计算服务器 10 用来存储非结构化 和结构化数据, 比 如 :视频、图片、 文 档等富媒体文  件  2. JSS 作业调度服务进程 存储及计算服务器 2 作 业 (任务 ) 的调 度程序 , 是计算任 务的发起者和调 度者  3. DCS 数据计算服务进程 存储及计算服务器 10 作 业 (任务 ) 的具 体负责计算的程 序,接受 JSS的分

31、 配任务,处理任 务 , 比如 : 图片特  50 征批评 , 视频的分 析等等  4. JGS 作业自动生成进程 存储及计算服务器 2 作 业 (任务 ) 的自 动生成 , 主要用来 生成固定规则的 任务 , 比如台标数 据清理任务 5. ACS 自动清理服务进程 存储及计算服务器 2 自动定时清除没 有利用价值的历 史数据 , 垃圾数据  6. MPS 消息处理服务进程 WEB及消息服务器 6 获取分布式消息 队列中的数据 , 并 对获取的数据进 行既定规则的业 务处理 , 最后把数 据存储在 S2DFS 或者 D2B中  7. SDS 实时流数据处

32、理服务进程 WEB及消息服务器 6 能够实时持续的 完成流式数据的 计算处 理 , 具有实 时性,低延迟特 点 , 与批计算相对 应 8. D2B 分布式数据库(开源) 分布式数据库服务器 10 分布式 noSQL 数 据库 , 完成海量结 构化数据的存储, 具有容量大 , 分布 式 , 易扩展 , 性能 好的特点 2.5实施计划 数据中心 IaaS设施(软件、硬件)到位并部署工作安排,下面表格是实施计 划的主要交付节点:  序号 工作内容 时间  1. 实施启动 2014 2 25前  2. 采购硬件(服务器、阵列柜、交换机、其他) 2014 3 5前 &nbs

33、p;3. 部署并联调硬件(安装操作系统)及局域网网络,  包括外接三线光纤网络  2014 3 10前  4. 部 署 并联 调 PostgreSQL9.3x64forLinux、  ApacheIntel千兆网 口 4*GbNIC; SATA3企业级 硬盘 8*3TB:RAID10做数据 盘  (保证高性能、高可靠性的 同时,单台有效空间为 12TB);冗余电源;  2. 主要用来存储非结构化和结 构化数据 : 日志 、 行为记录; 图片、视频、文档、网页等 文件、索引等记录;部署备 份数据也可以存储在该存储 集群上。  

34、3. 存储 1年的 200万终端的数 据量,加上网爬 1年的电商 数据,约 85TB,作镜像模 式, 则需约 170TB存储空 间;  4. 前后 2两个执行项目共计投 入 16台存储服务器 : 总 192TB (镜像后: 96TB)  1.操作系统: RHEL6.5x64 或者 CentOS6.5x64(该类设备上 都要部署)  2.分布式文件系统 : S2DFS(该类 设备上都要部署)  3.数据计算服务进程 : DCS(该类 设备上都要部署)  4. 作业调度服务进程 : JSS(部  署在其中 2台设备上,主 / 备) &nb

35、sp;5. 自动清理服务进程 : ACS(部  署在其中 2台设备上,主 / 备)  6. 作业自动生成进程 : JGS(部  署在其中 2台设备上,主 / 备)  7.分布式数据库: D2B(该类 设 备上都要部署)  6(增加 并共用)  2. WEB及消  息服务器  1. 2U机架服务器; IntelXeonE5-26202*CPU:12 核心; 128GBECC服务器内 存条; Intel千兆网口 4*GbNIC; SATA3企业级 SATA硬盘 2*4TB:RAID1; 冗余电源;  2. 主

36、要用来部署 WEB/APP软 件,部署分布式消息软件平 台,缓存上传上来的采集数 据和网络爬虫数据;  1.操作系统: RHEL6.5x64 或者 CentOS6.5x64(该类设备上 都要部署)  2. 分布式消息平台: DMQ(该 类设备上都要部署);  3. WEB及应用服务中间价: Tomcat或者 JBOSS(该类设 备上都要部署)  4. 消息处理服务进程 : MPS(该 类设备上都要部署)  5. 实时流数据处理进程: SDS (该类设备上都要部署)  4(增加 并独立 部署)  3. 应用数 据  

37、库服务器  1. 机架服务器; XeonE5-2620 2*CPU:12核心 ; 64GBECC服  务器内存条; Intel千兆网口 2*GbNIC; 1*Qlogic 1.操作系统: RHEL6.5x64 或者 CentOS6.5x64(该类设备上 都要部署)  2. PostgreSQL9.3x64forLinux 2 70 QLA2562F双通道 8GBHBA 卡; SAS硬盘 10K:2*600GB:RAID1; 冗余电  源;  (该类设备上都要部署)  3.WEB 及应用服务器 : Tomcat 或 者 JBOSS(该类

38、设备上都要 部署)  4. 应用数 据  库光纤柜  2U机架式 12盘位光纤存储柜,双 控 ; 4个 8GbFC主机接口 , 1个 6GbSAS 扩展口 ; 4TB*12SATA3企 业级 硬盘, RAID6;双冗余电源风 扇; 配臵 2个 8GBSFP+模块, 2根 5米 LC-LC光纤线;支持 UNIX/LINUX/WINDOWS 等主  流的操作系统及 VMware等虚拟 机应用 ; 模块化且关键部件均支持 热 插拔;高可用支持: Multi- path&load-balancing支持;  1 5. 华为全 千 产品型号 S5

39、700-52C-PWR-SI 1(增加  兆交换机 产品类型千兆以太网 并共用)  应用层级三层  背板带宽 256Gbps 包转发率 132Mpps 传输方式存储转发方式  接口类型 48个  10/100/1000Base-T,上行支持 4  1000Base-XSFP, 2 10GESFP+,  4 10GESFP+插卡  接口数目 52口  传输速率 10M/100M/1000Mbps 扩展插槽 4 堆叠支持可堆叠  6. 标准图 腾 42U服务器机柜: 600mm宽  4(共

40、用)  机柜 *1000mm深 *2000mm高 ,内含 4个风  扇、 10块托盘。  7. 线材、 工 安普超 5类双绞线、作线工具、管  若干  具、其 他 材等等  材料等等  2. 软件配臵表  序号 名称 配臵描述 部署硬件 数量 用途  1. S2DFS 分布式文件系统 存储及计算服务器 6(增加 并共用 ) 用来存储非结构化 和结构化数据, 比 如 :视频、图片、 文 档等富媒体文  件  2. JSS 作业调度服务进程 存储及计算服务器 2(共 作 业 (任务 ) 的

41、调  71 用) 度程序 , 是计算任 务的发起者和调 度者  3. DCS 数据计算服务进程 存储及计算服务器 6(增加  并共 用)  作 业 (任务 ) 的具 体负责计算的程 序,接受 JSS的分 配任务,处理任 务 , 比如 : 图片特 征批评 , 视频的分 析等等  4. MPS 消息处理服务进程 WEB及消息服务器 4(增加 并独立 部署)  获取分布式消息 队列中的数据 , 并 对获取的数据进 行既定规则的业 务处理 , 最后把数 据存储在 S2DFS 或者 D2B中  5. JGS 作业自动生成进程 存储及计

42、算服务器 2(共 用)  作 业 (任务 ) 的自 动生成 , 主要用来 生成固定规则的 任务 , 比如台标数 据清理任务  6. ACS 自动清理服务进程 存储及计算服务器 2(共 用)  自动定时清除没 有利用价值的历 史数据 , 垃圾数据  7. SDS 实时流数据处理服务进程 WEB及消息服务器 4(增加 并独立 部署)  能够实时持续的 完成流式数据的 计算处理 , 具有实 时性,低延迟特 点 , 与批计算相对 应  8. D2B 分布式数据库(开源) 分布式数据库服务器 6(增加  并共 用)  分布式

43、 noSQL 数 据库 , 完成海量结 构化数据的存储, 具有容量大 , 分布 式 , 易扩展 , 性能 好的特点  备注:  共用:表示 “ 大数据计算平台 ” 共用 “ 云数据采集中心 ” 的设备 (统一部署 )。 增加:表示 由于 “ 大数据计算平台 ” 的顺利上线,需要新增若干同类的设备。  72 3.5实施计划  序号 工作内容 时间  1. 收视率和智能推荐应用正式上线 2014 4 30前  2. 摇立购应用正式上线运营 2014 6 30前  3. 大数据开放平台:正式上线验 证 (第一期开放接口  

44、;发布)  2014 10 31前  4. 大数据开放平台:正式上线验 证 (第二期开放接口  发布)  2014 12 31前  73 4 性能及成本分析  根据需求,我们最高并发数要达到 20 万 /s。智能家电上传的采集数据大小 为 40Kbps(这里没包括网络爬虫的数据 ) , 计算出 1万并发情况下 , 需要 400Mbps 网络带宽。  4.1运营商网络性能分析  并发数量 总带宽 单价 合计 备注  1 万并发 400Mbps 5万元 /100Mbps 20万元 /年 双线: 40万元 /年

45、  10 万并发 4Gbp(s4个 Gbps) 50万元 /Gbps 200万元 /年 双线 : 400万元 /年  20 万并发 8Gbp(s8个 Gbps) 50万元 /Gbps 400万元 /年 双线 : 800万元 /年  注:以上价格为市场询价得出,最后成交价可能低于或者高于他。如果是双线,还得在  最后成本合计项乘以 2。另外,上面的计算是理想值,没考虑网络自身的数据头(包 ) ,以 及掉包重传 , 或者丢掉的情况 , 以及网络延迟等等情 况 (可以乘以 80%为最后结果参考值 ) 。  4.2服务器网卡性能分析  每台设

46、备 4个千兆网口,设臵为 bond0,总网络带宽为 4Gbps,可以支持 10 万的并发。 6台 WEB/消息服务器可以支持 60 万的并发, 10 台存储 /计算服务器 可以支持 100 万的并发;如果去掉网络冲突或者掉包,乘以 60%70%。那么 6 台 WEB/消息服务器可以支持约 36 万 42 万的并发, 10 台存储 /计算服务器可 以支持约 60 万 70 万的并发。由于多台服务器构成了集群,网卡性能上完全可 以达到 30万的并发数请求。  4.2服务器内存性能分析  每台 WEB/消息服务器内存是 128GB, 用 20GB 的空间来缓 存 队列数据 , 2

47、0GB 内存空间可以满足每秒约 250 万并发(单台设备)的数据写入,所以按照 现有的  74 内存配臵 , 不会成为瓶 颈 , 大容 量 内存可以为今后海量的数据查询用作缓存数据 用,提高查询性能。  4.3服务器硬盘性能分析  WEB/消息服务器配臵的是两块 4TB 硬盘,构建 RAID1, 4TB 的硬盘 IO带 宽在 140MB/s 以上,如果采集的数据直接写硬盘,单台 WEB/消息服务器可以 满足 2.8万 /s并发写以上 , 6台设备可以至少满足 10万 /s以上的并发写 入 。 存储  /计算服务 器 集群的设 备 配臵 8*3TB硬盘,

48、构成 RAID10, IO带宽 约在 400MB/s-600MB/s 以上 , 单台存 储 /计算服务器可以满足 7 万 /s-10 万 /s 并发以上,  16 台设备( RAID10 模式)可以同时满足 100 万 /s 的并发以上写入。在网卡、内 存、硬盘三者的性能中,硬盘的性能最低,解决办法是 “ 缓存在内存中,批量写 入硬盘 ” 策略。由于 DMQ 和 D2B 都具备内存缓存功能,所以可以避免大并发 数的而带来的硬盘性能瓶颈问题。  4.4服务器 RAID模式分析  RAID级 RAID-5 RAID-50 RAID-10 容错性 有 有 有  

49、;冗余类型 奇偶位 奇偶位 复制  热备盘选项 有 有 有  需要磁盘数 三个或更多 6, 8, 10, 12, 14, 16 至少需要 4块盘 , 偶数个盘  可用容量 n-1的总磁盘容量。  其中 n为磁盘数  n-2的磁盘容量。  其中 n为磁盘数  n/2磁盘容量。  其中 n为磁盘数  恢复速度 * ( 计算后恢复, 很 慢)  * (计算后恢复,很慢)  * (直接复制,很快)  可靠性级别 允许一 个驱 动器出  故障。  实现 RAID50

50、后 ,每  个 RAID5集中允许 一 个驱动器出故障。  允许有多个驱动器出现故  障 ,但不允许一个 RAID1(镜 像 )集同时失去两个驱动 器。  75 读取速度  (随机 /连续 ) */* */* */* 写入速度  (随机 /连续 ) */* */* */* 注: *越多,表示速度越快。  通过上表的分析结 果 (选择主流的 RAID 构建模式作对比分 析 ) ,以及 XX 应用场 景 (分布式文件系统 、 分布式数据库混 合 安 装 , 前期的小尺寸文 件 (记录) 占主要数 量 ) ,保证数据库可靠性的前提

51、,需 要 同时考虑 1-2 年的存储容量和计 算性能,所以这里推荐使用 RAID10 模式构建磁盘组。  4.5D2B性能分析  10亿 约 600GB以上(与每条记录大小有关系,  这里的数据: 1Kb/条)  写( 1亿 ,无索引) 约 15000-20000条 /s 写( 1亿 ,有索引) 约 10000条 /s 写( 1亿: ReplicaSets+Sharding模式) 约 6000-8000条 /s 读( 1亿) 约 80MB-120MB/s 读( 1亿) 8000-10000个查询 /s 统计一个值( 10亿) 1024(理论上) &nbs

52、p;测试环境的硬件配置: IntelXeonE7-88372路 16核心 ,256GB内存, 15kSAS16*600GB 硬盘, RAID50;总共 12台设备; D2B的架构模式: ReplicaSets+Sharding。  4.4DMQ平台性能分析  DMQ和 Tomcat需要集成在一起,因为最终是看 Tomcat+DMQ整体性能。 具体实现方法 是 通过 REST方式调用 API, 完成数据写入到 DMQ平台 中 , DMQ 76 平台的 MQ部分全内存缓存,定时批量刷 MQ内存数据到 MQ的硬盘文件上。 Tomcat+DMQ的载体是 6台 WEB/消息服务器,配

53、臵见 “ 部署方案 ” 一节。  通过在虚拟机和实际生产系统中的验证及测试,采用 DMQ为全内存缓存, 批量定时刷硬盘。实测环境中的配臵是:志强 E5系列 CPU4核、 64GB内存、 4个 Tomcat实例 (内存约占 30多 GBCPU约占 80%多 ), 能够处理的并发数 量 共约为 15000次 /s。 如果在本方案中的 128GB、 12核 CPU(24线程 )的配臵情况下开启 10 个 Tomcat进程实例,可以近似推出 12核心 CPU( 24线程)大约能够处理 3万 /s 多点并发数,那么 6台 WEB/消息服务器总共能够处理约 18万 /s多点并发 数,接 近 XX

54、定的 20万 /s的并发数目标,如果同时考虑外接运营商网络带宽及 成本的情 况下,以及 “ 大数据计算平台 ” 等内部应用的压力情况下,所以暂时建 议部署 6 台 WEB/消息服务器设备。  5存储空间规划表  由于 S2DFS 与 D2B是统一安装在同一集群平台中,它们二者对处理数据方 式完全不一样 , 分布式文件系统侧重于 IO 带宽 , 分布式数据库侧重于 IOPS,所 以 要考虑二者的综合 读 /写性能 , 也要考虑数据的可靠性 。 通 过 前面 “ 4.4 服务器 RAID 模式分析 ” 小节的分析,这里推荐用 RAID10 模式,在取得了性能和可靠 性之间的平衡

55、的同时,又能满足 2014的业务应用的存储空间的要求。  项目投资存储空间规划表  项目  2014 年存储容量   存贮服务器数量及主要配置 模式 结构化数 据 非结构化数 据 容量小 计  数据采集中心 10台设备 (SATA3): 8*3T RAID10/S2DFS(D2B) 100GB 45TB 45TB 77 大数据计算平 台 6台设备 (SATA3): 8*3T RAID10/S2DFS(D2B) 10TB 30TB 40TB 合计   10TB 75TB 85TB 建议 2015,2016 年的存储 /计算空间的规划等到 2014 年下半年开始执行,因 为通过实际运行后 , 我们掌握了大量的真 实 存 储

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > AI大数据方案 > 大数据方案


客服微信号:hustnews2016
悟道方案版权所有
经营许可证编号:鄂ICP备19004533号-1