百度大脑AI技术成果白皮书|免费下载.pdf

上传人:悟*** 文档编号:4971 格式:PDF 页数:48 大小:6.23MB
返回 下载 相关 举报
百度大脑AI技术成果白皮书|免费下载.pdf_第1页
第1页 / 共48页
百度大脑AI技术成果白皮书|免费下载.pdf_第2页
第2页 / 共48页
百度大脑AI技术成果白皮书|免费下载.pdf_第3页
第3页 / 共48页
百度大脑AI技术成果白皮书|免费下载.pdf_第4页
第4页 / 共48页
百度大脑AI技术成果白皮书|免费下载.pdf_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《百度大脑AI技术成果白皮书|免费下载.pdf》由会员分享,可在线阅读,更多相关《百度大脑AI技术成果白皮书|免费下载.pdf(48页珍藏版)》请在悟道方案上搜索。

1、i 目录  引言 . 1 一、百度大脑进化到 5.0 . 2 二、基础层 . 3 2.1 算法 . 3 2.2 算力 . 5 2.3 数据  10 三、感知层  11 3.1 语音  11 3.2 视觉  13 3.3 增强现实 /虚拟现实 . 17 四、认知层  19 4.1 知识图谱  20 4.2 自然语言处理  22 五、平台层  27 5.1 飞桨( PaddlePaddle)深度学习平台  28 5.2 UNIT智能对话训练与服务平台 . 32 5.3 开放数据集  33

2、六、 AI安全 . 35 结语与展望  40 1 引言  回顾 过去的一 年,科技与商业发展的一个关键词就是“人工智能”。 在近一年的时间 里,百度科学家和工程师们 不仅 在人工智能算法、核心框架、芯片、计算平台、量子计算、 语音技术、计算机视觉、增强现实与虚拟现实、语言与知识、开放平台、开放数据等 诸多 方面取得了令人瞩目的 技术 成果 ,还 将这些 技术 成果 与行业相结合, 成功 应用于众多产品 之中 ,取得了丰硕的人工智能应用成果 。  2019年 2月,世界知识产权组织( World Intelectual Property Organization,简

3、称 WIPO) 发布了首份技术趋势报告,聚焦人工智能领域专利申请及发展状况。报告显示,百度在深 度学习领域的专利申请量位居全球第二,超越 Alphabet、微软、 IBM等企业和国外学术机 构,在全球企业中居于首位。  过去的一年,百度基础技术体系、智能云事业群组和 AI技术平台体系 进行了重大组织 机构调整,三个体系统一向集团 CTO汇报,这为技术中台建设和人工智能技术落地提供了 良好的组织保障。  本报告 总结了百度大脑在 2018-2019年度 取得的部分 技术 成果 : 第一章主要 概述百度 大脑 5.0, 第二至六章分别介绍百度大脑在基础层、感知层、认知层、平台层

4、和安全方面 的 技术 成果 。  面向未来,百度将继续打造领先的 AI技术能力,构建更加繁荣的人工智能生态系统, 助力各行各业进入智能化的工业大生产阶段, 在 智能时代创造更广泛的社会经济价值。  2 一、百度大脑进化到 5.0 百度大脑是百度 AI集大成者。 百度大脑自 2010年起 开始 积累基础能力, 后 逐步完善。 2016年, 百度大脑 1.0完成 了 部分 基础能力和核心技术 对外 开放; 2017年, 2.0版 形成了 较为 完整的技术体系 , 开放 60多项 AI能力; 2018年, 3.0版 在“ 多模态深度语义理解 ” 上取得重大突破 ,同时开放 110

5、多项核心 AI技术能力 ; 2019年, 百度大脑 升级 为 5.0, 核 心 技术 再获重大突破,实现了 AI算法 、计算架构与应用场景的创新融合 , 成为软硬件一体 的 AI大生产平台 。  如图 1所示,百度大脑 如今已 形成了 包括 基础层、感知层、认知层、平台 层 以及 AI安 全 五大核心架构 在内的 技术布局 。 同时, 安全一直都贯穿 AI技术研发的始终,已经融合在 百度大脑的所有模块中。 基于数据、算法和算力强大的基础能力支持,百度大脑 拥有 包括 语音、视觉 、 增强现实( AR) /虚拟现实( VR) 以及语言与知识等 技术 能力 , 并通过 AI平 台对外开放

6、 ,形成以百度大脑为核心的技术和产业生态 。  多年来,百度大脑支持百度 几乎 所有业务, 并 面向行业 和社会 全方位开放,助力合作 伙伴和开发者,加速 AI技术落地应用,赋能各行各业转型升级 ,其 核心技术及开放平台荣 获 2018年度中国电子学会 科技进步 一等奖。  图 1 百度大脑  3 二、 基础层  2.1 算法  百度 持续 在算法 和理论 方面 深入研究, 在 语音、图像、语言与知识等多个领域取得重 大突破 。  在 语音识别方面, 百度 将 注意力机制的建模技术用于在线 语音 识别,提出了流式多层 截断注意力模型

7、SMLTA,实现了流式的基于注意力机制的声学语言一体化建模,并在 2019 年初实现 了 基于 该技术 的大规模产品上线,大幅提升了语音识别产品在线识别准确率和用 户体验,相对 准确率提升 15%至 20%。 该算法使用 CTC( Conectionist Temporal Classification)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当 前建模单元的注意力建模。 通过该 方法把原来的全局整句 Attention建模,变成了局部语音 小段的 Attention建模。同时,为了克服 CTC模型 中 不可避免的插入删除错误对系统造成的 影响,该算法引入一种特殊的多级

8、 Attention机制,实现特征层层递进的更精准的特征选择。 最终,这种创新建模方法的识别率不但超越了传统的全局 Attention建模,同时还能够保持 计算量、解码速度等在线资源耗费和传统 CTC模型持平。  图 2 流式多层截断注意力模型 SMLTA 在个性化语音合成方面,百度还提出了语音风格和音色迁移 的个性化韵律迁移语音合 成技术 Meitron。 该 技术在训练时,交叉组合不同声音的训练样本 ,实现 了 声音的音色、 风格和情感的解耦 。语音的个性化信息、 风格 信息 和情感 信息等沉淀到全局声音 的 基 4 ( basis) 空间中, 并将 声音共有信息沉淀到一个统一的

9、声学模型中。在做语音合成的时候, 用户仅仅输入少量目标语音作为指导, 在 全局声音基空间中进行注意力选择, 选择 出和当 前用户个性化声音更加匹配的基。 之后 可以 根据这个基 ,并 结合训练好的共有信息声学模 型,生成与目标语音的音色和风格高 度 相似 的任意语音 。依靠 Meitron的解耦和组合机制, 我们能够在不同音色、风格和情感之间进行风格转化和迁移, 仅仅 使用少量用户语音, 就 可以实现多种音色、 情感 和风格的转换 。 该技术 成果 已经落地 百度 地图产品,地图用户 只 需要提供约 20句话的目标语音,就可以合成与 目标语音非常相似的个性化声音, 用于 地图 任意导航场景的语

10、音播报和任意名胜 景点 的语音播报等。  图 3 Meitron个性化韵律迁移合成技术  在计算机视觉领域, 百度研发了基于图文关系的大规模图像分类弱监督算法 ,提出 了 Ubiquitous Reweighting Network( URNet),给予每张图片训练过程中不同的权重,与原始 的分类模型相比, Top5提升了 8个点左右 。该方法在最大的图像分类数据比赛 Webvision 比赛中获得冠军。 在图像超分辨率领域,百度提出了基于级联回归的 CDSR模型,用于图 像的超分增强;还提出了自适应注意力多帧融合技术,用于视频的超分增强。 2019年 5月 , 在计算机视

11、觉 Low-level Vision领域中影响力最大的竞赛 NTIRE上获得了图像超分辨 率 项目 的冠军和视频超分辨率项目亚军。 在医学图像领域, 百度提出全新的基于深度学习的病理 切片肿瘤检测算法 1,在公共数据集 Camelyon16大赛上的肿瘤定位 FROC分数高达 0.8096, 5 超过专业病理医生水平以及之前由哈佛 、 MIT等保持的 大赛 最佳成绩。研究成果 发表于 2018深度学习医学图像大会。  在自然语言处理领域, 百度开发了更具表现力的主题嵌入和知识图嵌入表示学习模型, 能够高精度地从语言数据中捕获主题信息。同时,通过联合恢复知识图嵌入空间中的头实 体、谓词和

12、尾实体表示,问答系统的回答准确性得到进一步提高。这项工作发表在 IEE Big Data 20182, SDM 20193, WSDM 20194和 NAACL 20195。  很多高维的特征空间,如词嵌入 、 图像的特征向量等,都有非常有趣的几何结构。另 一方面,多个在语义上有相关性的空间又有一定的相似性。百度深入研究了这些高维空间 的特性,提出的全新 Hubles Nearest Neighbor ( HNN) Search算法 , 能够大幅提高在标准 数据集上的单词翻译准确率。以词嵌入空间为例, HNN能够只用极少量标注数据,实现不 同语种间单词的翻译。 HNN此项基础研究能够

13、帮助提升机器翻译系统在低频 词 、 术语 、 小 语种等情况下的效果。另外, HNN作为一种新的信息检索方法, 对广义上的多特征空间匹 配都有指导意义,如零样本图像识别 等 。这项工作发表在 ACL 20196。  百度提出的 Logician逻辑家代理可以从 开放领域 自然语言句子中提取事实 ,实现了更 深层次的语言理解 ,其性能明显优于现有的开放信息提取系统。百度还建立了一个 Orator 演说家代理,可以将几个事实叙述连成一个流利的自然语言句子。通过将提取和叙述作为 双重任务, 百度在自然语言和知识事实之间搭建了双向的桥梁,使得系统性能得到进一步 的提升。这项工作发表在 WSD

14、M 20187和 EMNLP 20188上。  2.2 算力  人工智能 时代 , 算法能力快速提升,同时,算法对算力的要求也 越 来越高。 为了 应对 算力 、 效率 和多元化场景 等核心 挑战 , 百度提出了端到端的 AI计算架构, 通过芯片、连接、 系统和调度的协同设计和技术创新 , 满足 AI训练方面 IO密集、计算密集、通信密集的需 求,以及 AI推理方面大吞吐和低延迟的需求。 与此同时,包括芯片之间、系统之间、设备 之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。 在系统层兼 顾端云,软硬一体, 实现了 对算力资源 的 灵活调度。  

15、;6 2.2.1 芯片  云端通用 AI处理器 百度 昆仑  硬件的进展是这次 AI发展的基础推动力量 之一 。 云端 的 AI推理与训练芯片, 成为了 各大互联网公司、传统芯片 厂商 以及创业公司聚焦的战场。业界正在 尝试 使用特定领域架 构( DSA)解决算力及功耗问题。  2018年 开发者大会,百度发布了国内首款 云端通用 AI处理器 “ 百度昆仑 ” 。它 基于 XPU架构,采用 14nm三星工艺, 在 150瓦功耗限制下 , 运算性能高达 260Tops,能解决数 据中心 对芯片的 高性能、低成本、高灵活性三大诉求。百度昆仑芯片具备完整的 toolch

16、ains, 并 开放给开发者 , 与飞桨( PaddlePaddle)实现了深度结合,打造全栈国产技术生态。功 能上同时支持视觉、语音、自然语言处理、推荐、无人车等场景,在众多业界深度学习模 型上均拥有很好的性能和效率表现; 即将 量产 的芯片在多个模型上实测性能 均 超过 业界主 流芯片 。  远场语音交互芯片 百度 鸿鹄  远场语音交互芯片 “百度鸿鹄” 变革了传统芯片设计方法,体现了软件定义芯片的全 新设计思路。 百度 鸿鹄拥有契合 AI算法需求的核内内存结构设计、分级的内存加载策略、 依据 AI算法调教的 cache设计和灵活的双核通信机制,最终实现了深度学习计算过

17、程和数 据加载的高度并行,一颗芯片即同时 满足 了远场阵列信号实时处理和超低误报高精度唤醒 实时监听的需求 。  百度 鸿鹄可以支持多达六路的麦克阵列语音信号输入;支持百度领先的麦克阵列信号 处理技术,即双声道立体声 AEC消除、声源定位、波束生成等;支持百度领先的 Dep Peak 和 Deep CNN语音唤醒技术,实现复杂内 外噪场景下的高精准唤醒以及低于一天一次的误 报率。同时,该芯片还支持百度创新的双麦克模型波束算法,实现唤醒后 360度无死角识 别,首次在中文语音识别上实现双麦克阵列的识别率超越传统 6麦克系统, 实现了行业领 先的芯片模型波束技术突破 。  7

18、2.2.2 AI计算 平台  百度推出 的 AI计算平台,提供了一个端到端的解决方案来应对人工智能计算的挑战。 AI计算平台由 超级 计算模块 X-Man、高性能存储系统 Fast-F、大型分布式 AI计算训练平台 KongMing组成。  X-Man是百度研发的人工智能 超级 计算模块, 是针对训练场景定制优化的 AI计算产 品 。 百度 在 18年年 底正式发布 X-Man 3.0,单机具备 2000TFlops算力,并 具备灵活的模 块化设计功能,能够支持不同的互连架构以及不同的 AI加速芯片。 X-Man系列产品创造了 6项业界第一, 相关 专利荣获了 2018年中

19、国国家专利优秀奖。 百度与 Faceboook、微软等 联合创立了 OAI( Open Accelerator Infrastructure) 开放 AI加速基础架构项目, 旨在 促进 AI芯片多元化生态格局的健康持续发展。百度在主导 OAI标准定义的同时,也以实际 行动推动 OAI标准落地,在 19年 9月发布了业界首款支持 OAI标准和液冷散热的超级 AI 计算机 X-Man 4.0。  图 4 百度人工智能 超级 计算模块 X-Man 4.0 Fast-F是一种高性能并行文件系统解决方案,硬件上基于 Open Channel SD实现 KV接 口,合并 FW和存储引擎层,软件栈

20、实现全无锁设计,解决了 AI场景下分布式训练集群中 的海量小文件 I/O难题。  8 KongMing是 人工智能训练集群 ,具备自研的高速通信库,充分利用 RDMA和 NVLink 等特性,并且引入了全网络架构拓扑感知调度,能够以最佳的计算和通信效率将作业映射 到多样化的 AI加速芯片和系统上。 KongMing与 X-Man及 Fast-F紧密结合,可支持大规模 分布式训练,将训练时间从周级别缩短到天级别。  百度 AI计算平台已经广泛 应用 在 各行各业的 人工智能解决方案中。同时 为支撑平台更 好地服务业界用户, 百度超大规模资源管理系统提供了几十万台服务器托管 服

21、务 ,常驻容 器数目达到 500万,并提供数十万并发计算能力,为大数据处理 、 模型训练提供支持。  2.2.3 5G边缘计算  5G会在 许多 垂直 领域显著 提升 人工智能服务的 能力。 近年来,百度一直积极布局边缘 计算 和 5G领域 。 2018年,百度 成功打造出面向互联网的边缘计算统一平台 Over The Edge ( OTE),并先后与联通、 Intel等知名企业合作加速 5G建设。 OTE平台 将百度人工智能与 5G基础设施连接起来 , 可以使百度人工智能融入 万物 互联的世界,接近用户,服务用户 , 成为一个新的生态系统 。 OTE平台的架构如 图 5所

22、示,包括资源层的管理, IaaS ( Infrastructure as a Service)资源的虚拟化, 实现边缘服务管理的 PaaS( Platform as a Service),以及基于 IaaS和 PaaS的各种边缘解决方案, 可以 在边缘提供全面的计算加速支 持。  OTE Stack是面向 5G和 AI的边缘计算平台。通过底层的虚拟化,可以屏蔽边缘硬件的 异构特性,对外输出标准的算力资源;通过 OTE层次化的集群管理和全局的智能调度,将 5G时代大量的边缘节点有效调度起来,从而在边缘为 AI提供低延迟、高可靠和成本最优 的算力支持。同时,通过 OTE Stack多层集

23、群的统一调度,将设备 、 移动边缘 、 云边缘 、 云 中心协同起来,为 Device-Edge-Cloud的协同计算提供了可能。  9 图 5 OTE边缘计算架构  2.2.4 量子计算  量子计算被认为是未来计算技术的心脏。 2018年百度宣布成立量子计算研究所,开展 量子计算软件和信息技术应用业务研究 , 致力于量子信息科学中 量子技术的研发和储备, 重点关注量子架构、量子算法、以及量子人工智能应用 91011121314。  在量子架构方面,百度致力于用半正定规划等优化工具给出任意信道的量子容量可计 算上界 和信道模拟所需资源估计,这可作为近期量

24、子计算中的量子信道编码 、量子纠错 和 量子电路合成的 测试标准。此外 , 百度探索了量子纠缠这一量子分布式信息处理中最重要 物理资源的提纯问题,获得在非渐进(有限资源)情形下的三大参数,即提纯比率、状态 拷贝数、以及保真度之间的消长关系。  10 在量子算法方面,百度利用量子效应设计快速算法来处理非负矩阵分解问题,提供 了 将量子与经典计算结合起来的“量子分治”策略来加速机器学习的 新路径,有望对计算机 视觉和机器学习等人工智能应用产生影响。  百度还关注与量子进程有关的问题,回答了“一个量子进程何时比另外一个量子进程 更加无序”这一重要问题,从而将著名的优超关系拓展到了

25、量子情形。该关系也给出了量 子热力 学的一组完整墒条件。  经典算法 的 改进对于量子计算研究也有极大促进作用。通过改造已有优化算法,百度 开发出全新的 量子脉冲计算 系统 “ 量脉 ” (Quanlse), 其 在 量子 架构中承接 量子 软件 和量子 硬件 。对于每一个量子逻辑门, 该 系统可以快速生成相应的脉冲序列 ,从而实现对 量子 硬 件的 控制。经过实际测试, 在 相同精度和实验条件下,单量子比特 门 计算性能 比目前最快 的工具提升 8倍以上 ,而两量子比特 门 性能则 至少 提升 23倍 , 极大地提升了实验效率。  2.3 数据  过去的一年,

26、百度推出了联邦学习解决方案和数据科学平台等最新成果, 并成功 运用 人工智能技术促进数据工程技术的提升。  联邦学习解决方案  机器学习 和 深度学习通常需要将数据集中在一个数据中心。近年来,随着整个社会对 数据安全及数据隐私的日益重视,以及相关法律法规的出台,使得数据共享和流通面临很 多现实挑战。如何在保护数据隐私和数据安全的前提下,利用分散在不同地方的数据来训 练机器学习 和 深度学习模型,成为一个迫切需要解决的问题。联邦学习通过密码学方法和 精心设计的模型训练协议,为解决上述问题提供了一种可能的技术手段,能确保隐私数据 不出本地 的前提下,通过多方协作训练得到一个高精

27、度的机器学习 和 深度学习模型。  在这个新兴的领域,百度已经设计并实现了针对数据垂直切分场景的分布式 Logistic Regresion联邦学习解决方案,该方案基于参数服务器架构,能够支持在多个节点上并行 训练模型 , 具有良好的可扩展性, 可以实现 海量数据的联合建模。同时,百度 构建了 11 GBDT联邦学习的原型系统, 并 探索了基于深度学习的联邦学习解决方案,包括基于预训 练模型的联邦迁移学习以及基于孪生网络结构的联邦学习两类方案。  数据科学平台  百度推出 的 Jarvis数据科学平台,为公司各业务提供易用、高效、自动、安全、节约 的统一数据科学环

28、境,大幅提升了开发效率和业务效果,节约大量资源。 Jarvis平台 基 于 Jupyterlab的全托管交互分析环境,提供按需弹性的计算资源,成为内部广泛应用的交互环 境 ;基 于异构计算的端到端算法加速方案, 通过 数据科学全流程在 GPU显存中计算,单机 体验好、系统简单易用,分析建模的效率高、成本低,且 GPU单机比 Spark集群加速 13 倍,而成本仅为 1/10;支持 全流程自动机器学习 AutoML,覆盖预处理、特征工程、模型 选择及超参调优等全流程,引入单 阶段调优及人工规则优化搜索空间, 通过 元学习、迁移 学习提升搜索效率 ;支持 基于 Jarvis软件的安全联合建模方案,

29、兼顾安全性和算法效率, 保障数据共享、算法分发、建模过程的安全性 ;支持 GPU细粒度管理方案,在 GPU分时复 用基础上引入 GPU卡上计算单位的空分复用,提供任务隔离性和服务质量保证、大幅提升 GPU资源利用率。  此外, 百度 在开源社区建设方面也取得突出进展,开源的 分布式分析型数据库 Doris当 前在百度以及其他知名互联网公司已大规模使用。在 2018年进入 Apache基金会进行孵化 后,百度又提供了流式导入功能 , 对 接 Kafka和 增加 SQL兼容性以及提升查询性能等。  三、 感知 层  百度大脑的感知层包括语音、视觉、增强现实 /虚拟现实

30、等技术,这些技术使得百度 大脑具备了仿人 的 听觉和视觉能力。  3.1 语音  端到端的模型充分发挥了模型联合训练的优势,显著提升了语音识别、 语音 合成等技 术的性能, 受到 学术界和工业界的一致关注。  12 语音识别  在 流式多层截断注意力模型 SMLTA的基础上, 百 度 进一步 提出了中英文一体化建模和 方言大一统模型技术,一方面在保持原有中文识别率的基础上,实现用户中英文混杂和纯 英文自由说 ;另一方面有机融合了普通话和方言的建模单元,使得同一个声学模型既能识 别方言又能识别普通话。 针对嵌入式终端,百度提出的基于 SMLTA的离线嵌入式

31、建模技术 采用语音语言一体化建模技术,极大地压缩了传统语音识别所使用的语言模型体积。应用 该技术的离线语音输入法性能显著领先于行业平均水平。 在语音交互方面,百度提出的 基 于大数据仿真技术的信号前端和声学后端联合优化的整套端到端语音交互方案, 使 绝对句 准 率 相对提升 3%以上,同时首次推出业内领先的一次唤醒多次交互技术,极大地提升了用 户体验。  语音合成  在 语音合成方面,百度提出了 End to End Parallel waveRNN(端到端的并行 waveRNN) 语音合成技术 , 解决了语音合成系统上线时的 bad case消除问题, 明显提升了语音合成

32、系 统的自然度和表现力, 适合大规模在线实时语音 合成 服务。相比于国际上主流的 Tacotron 和 waveRNN技术, 该技术 主要有以下两 方面 创新: 首先,传统方法将文本韵律预测与语音 波形生成作为两个独立阶段进行建模学习,由于统计模型误差累积,最终合成语音的 bad case较 多,情感表现力 也较弱 。端到端的 waveRNN直接根据输入 文本 信息,训练一个深度 学习 waveRNN网络 以 合成语音。整个过程 采用 端到端训练,不需要中间的梅尔谱的过渡转 换过程 , 减少了合成的 bad case, 提升了最终合成语音的自然程度。 其次,传统的 waveRNN是逐点递推过程

33、,递推过程冗长,难以适用于在线实时语音合成的场合。 百度 能 够按照音素、音节、或者音节组合等语音片段单元来独立且并行的合成一个个语音片段, 最终再把这些语音片段拼在一起。在进行每个片段的独立合成时候, 该片段的 RNN/LSTM/GRU隐状态的初始状态 用传统的拼接系统的决策树 提供 ,从而保证每个独立合 成片段的合成稳定性。  百度 还 提出了一种全新的基于 WaveNet的并行音频波形( Raw Audio Waveform)生成 模型 ClariNet15,合成速度比起原始的 WaveNet提升了数千倍,可以达到实时合成速度的 二十倍 即合成 1秒语音,只需要 0.05秒。

34、ClariNet是语音合成领域第一个完全端到端 13 的模型,即使用单个神经网络,直接从文本输入到原始音频波形输出。对比 Google DepMind提出的 Parallel WaveNet, ClariNet中所用到的 teacher WaveNet的输出概率分布 是一个方差有下界的单高斯分布,直接使用最大似然估计来学习,并且直接闭式( colsed- form)地计算目标函数,大大简化了训练算法,使训练时间比 Parallel WaveNet减少数十 倍。  另外,百度提出了针对语音合成领域的全并行模型 ParaNet16。该模型直接采用前馈 神经网络 ( Fedforward

35、Neural Network) ,不依赖于任何自回归神经网络 ( Autoregresive Neural Network) 或者循环神经网络 ( RNN) ,从文本生成音频波形仅需一次前馈传导 ( Feed-Forward Pass) ,合成速度较全卷积的自回归模型提升了 46.7倍。在长句的合成过 程中, ParaNet提供了更为稳定的文本与频谱之间的对齐关系,减少了重复词、跳词、以 及错误发音,相比于自回归模型有更高的鲁棒性。  3.2 视觉  在 计算机视觉 方面, 百度在 基 础图像技术、视频理解技术、软硬件结合 等 多个技术方 向,取得了重要突破 , 多次获得顶

36、级赛事的冠军。  图像技术  目标检测是计算机视觉和模式识别领域的基础问题之一 , 百度在大规模图像检测和检 测网络的性能 两个方面 开展研发工作 。  一方面, 在图像基础算法方面,百度研发了大规模图像检测算法。 该算法提出的动态 采样方案,对于不同类别,数据量差别较大的情况下效果有明显提升 。 2018年, 百度 在图 像检测数据 Open Images比赛中获得全球第一名 的成绩 。该技术 并 已 被 应用于商品检索、 Logo检索等多个业务中。  另一方面, 百度在 图像检测 领域获得 2019年 “ Objects365 物体检测 ” 国际竞赛

37、 Full Track冠军 。 在这次比赛中, 百度通过使用基于强化学习的网络结构搜索技术,大幅增强了 Two-Stage检测网络模型的性能,并针对大规模图像检测任务提出的 Class Aware Sensitive采 样方案,有效的缩短了模型收敛所需的迭代次数,进一步提高了模型的最终效果。  14 视频技术  百度视频理解技术持续优化,支持百度搜索的视频数据分析的相关业务需求。目前小 视频分类准确率超过 90%,业务上优质视频增益率达 95%以上 。百度连续三年在视频理解 领域影响力最大的赛事 ActivityNet上获得冠军。  在视频编辑方面,百度结合多模态

38、嘴型生成、 GAN、 TTS等技术,实现了业界首个可 以量产 视频 的真人形象虚拟主播 , 并成功应用于好 看视频天气预告、新闻播报等场景。百 度还提出了选择性迁移单元技术用于提升 GAN的表现效果,在公开数据集 CelebA取得了 世界领先的效果,相关算法 STGAN的工作内容发表于国际顶级学术会议 CVPR 201917。  图 6 百度真人形象虚拟主播  在人体视觉理解方面,百度对以往基于多尺度全卷积神经网络的模型(例如 Pyramid Scene Parsing Network, DepLab v3+等)进行改进,使每个卷积核能对图片的细节进行感 知,同时输出精度更

39、高的 特征图 , 解决了 人体关键目标区域较小,难以检测的问题 。此外, 百度还进行了图片增强、数据扩张,在训练中动态调整输入图片尺度,使用 mIOU los损 失函数等,使得模型能够更精确地捕捉肢体的细节以及被遮盖的部分。最终根据各个不同 模型的效果进行融合, 在 CVPR 2019 LIP( Lok Into Person) 竞赛中, 百度取得 65.18%的 mIoU,获得了单人人体解析的冠军,超过上届冠军 7.2个百分点 , 总计 获得人体检测领域 三项冠军。  15 在智能城市视 频分析领域,百度参加了由 NVIDIA在 CVPR 2019上举办的 AI CITY比赛, 并

40、拿到车辆 RE-ID第一。在车辆重识别技术方面,百度深耕检测、跟踪、属性分析、关键 点定位等核心技术,设计出基于关键点的特征图变换网络,并结合车型识别、摄像头时空 分布信息等辅助手段提升车辆重识别准确率。这项技术广泛服务于城市安防、智能城市、 智能交通等重要的 AI2B场景。  图 7 百度车辆识别技术效果  在视频跟踪方面 , 百度 还 在 多尺度特征提取、改善物体模板以提升对微小目标的召回 能力、利用时空特征来降低密集多目标跟踪的轨迹交换等 方面,取得重要进展 , 并 在国际 权威的视频多目标追踪挑战( Multiple Object Tracking Challeng

41、e, MOT)的 MOT16榜单上, 获得第一名。这些视频能力对内支持百度智 能 城市、智 能 零售、自动驾驶等业务,并通过 百度大脑 AI开放平台对外开放,服务各行各业。  图 8 百度多目标追踪效果  16 人脸检测与识别  在人脸技术方向,百度在 PyramidBox基础上提出的 PyramidBox+算法在 国际权威评测 集 Widerface最难的 Hard子集上排名世界第一 18;在人脸关键点技术上, 百度 应用 AutoDL技术取得了 ICME 2019人脸关键点比赛的冠军 。 在 CVPR 2019首次举办 的 人脸活体 检测比赛 中 ,百度 作为

42、邀请参赛团队取得了 ACER指标第一名的优异成绩 ,即 平均错误率 最低 。 这项 技术也作为百度 FaceID解决方案的一项重要功能在多个人脸场景里得到了应用。  文字识别  在文字识别 OCR领域,百度在端到端文字识别任务上取得了 RCTW-17世界第一 的成 绩 。在文字检测、结构化文字信息提取、视频 OCR等多个研究方向上 百度也 持续探索,相 关 的成果 在 CVPR 2019和 ICDAR 2019发表 , 并 在 ICDAR 2019 MLT多语种文字检测竞赛中, 取得了第一的优异成绩 。基于在文字识别领域多年的研究和应用经验,百度 联合学术界 举 办了 IC

43、DAR 2019的两项文字识别竞赛: LSVT( Large-scale Stret View Text with Partial Labeling,大规模弱标注街景文字)、 ArT( Arbitrary-Shaped Text,任意形状场景文字) , 吸引了 世界范围内高校、 知名 企业等 100多支队伍参赛,在弱监督文字识别和任意形状文 字识别两个新任务方向上为学术界提供了有力的研究数据和工具。  软硬结合  在视觉模型小型化技术方向,百度形成了一套从模型压缩到模型自动搜索比较完备的 体系,囊括了量化、减枝、蒸馏、模型自动压缩、模型自动搜索、硬件搜索等方面,已经 在视觉

44、各项任务上得到应用。 面向 硬件的模型加速,百度研发了 Leopard系统 。该系统 综 合利用模型压缩、动态训练策略 、以及并行化训练架构,实现视觉识别模型的训练推理 的 显著加速。这项技术在斯坦福大学举办的 DAWN竞赛( Data Analytics for Whats Next)中 共取得 CIFAR10推理速度和成本,以及 CIFAR10训练速度和成本 四项第一。  在 实际应用 中 ,视觉语义化往往依赖大量传感器的综合信息, 并 需要大量计算资源和 融合推理的难题,百度研发了多传感器视觉语义化技术。依托边缘视觉计算技术、多种类 型自研传感器、以及高 SLA软件架构,可以实

45、现多人复杂任务的视觉语义化推理。以一个 便利店环境为例,百度安装了超过 1000个 多种 类型传感器(重力 、 光幕 、 相机 、 深度相 17 机)。依靠端云结合的人体追踪、肢体检测、商品取放检测、 SKU分类、融合推理等算法, 可以在 4平米 /人的密度下准确追踪和分析消费者 购物行为,即使多人靠近同时拿取相邻商 品也可以准确分辨。 为了提升系统运行速度, 百度利用 300多个 端计算芯片分担服务器计 算负担,减少了 95%的网络传输和 GPU服务器需求。该技术 能够 支持更多的单位面积购物 人数以及单位面积 SKU数量,并且可以更快速的完成视觉语义化推理并推送账单。  在机器人

46、避障技术方向, 其难点在于检测障碍物的同时需要对自身准确定位,并判断 可通过空间的大小。 百度提供了市场上领先的机器人视觉 SLAM定位技术 ( boteye) ; 并 进一步开发了技术领先的机器人避障技术,利用 强化 学习 算法 模型 有效融合视觉和激光传 感器,以及端到端输出底盘控制信号,提升避障成功率。相比 ROS,在多个场景下,百度 机器人避障技术的避障成功率均大幅领先。  3.3 增强现实 /虚拟现实  2018年以来,百度在 增强现实 和 虚拟现实 方面取得了许多重要进展。 百度 构建了生态 开放平台 DuMix AR,开放多种 AR核心能力和 AR引擎,为开发

47、者及合作伙伴提供优质的一 站式解决方案 。 百度 VR已 在全景、 3D图像内容的采集、处理、传输、展示及交互技术 形 成了深厚 积累 。 百度 还 开发了一种增强现实的自动驾驶仿真系统。  增强现实  百度大脑 DuMix AR平台作为百度大脑的重要组成部分 之一 ,目前已成为国内最具影响 力的 AR技术开放平台之一,累计开放技术能力超过 40项。最新发布的 DuMix AR 5.0,带 来人机交互和感知跟踪两个方向的重大升级。人机交互方面,百度打造人脸人体手势环境 一体化交互系统,为业界及合作伙伴提供优质的一站式娱乐互动解决方案。感知跟踪方面, 百度自主研发视觉定位与增

48、强服务 VPAS,通过离线高精地图构建、在线定位、融合跟踪等 三大关键模块,构建了国内首个达到商用落地标准的大场景物理世界交互系统。  DuMix AR平台联合 40多个生态合作伙伴在品牌营销、视频娱乐、景区、教育和汽车 等 多个垂直行业开展创新探索。继 AR太极大屏落地全球首个 AI公园 海淀公园后, 2019 年, AR太极大屏迅速推广至全国多个城市,丰富线下互动体验、引发全民健身热潮,累计 落地九个公园,十五块 AR互动屏,并衍生出八段锦等创新互动内容形态; 2019年,春晚 18 切红包、虚拟主播 “ 小灵 ” 先后登陆央视; “ 听障儿童无障碍阅读计划 ” 携手百度公益、

49、壹基金、 58同城,以 AR技术变革传统出版物,关爱弱势群体,创造良好的社会效益;此 外,还与百度地图场景化能力结合,率先实现大场景实景 AR互动,以 VPAS再现圆明园大 水法的辉煌盛景,将历史画卷生动呈现。截止目前, DuMix AR平台承载的累计互动量超过 19亿,深入 6大行业发布解决方案,显著推动了 AR技术与应用的发展。  虚拟现实  百度也在深耕 VR核心技术和行业落地解决方案。在全景、 3D图像内容的采集、处理、 传输、展示及交互技术持续积累,已支持 K12、高校培训、营销等业务场景的落地。在内 容生产方面,通过高精度拍摄、智能拼接、基于深度学习的图像精准分

50、割技术,构建了软 硬一体化的 3D图像采集方案;在内容展示方面,基于自研 webVR渲染引擎、自研高性能 全景和 3D图片视频播放引擎以及长期积累的 VR头显硬件适配能力,推出了可覆盖 Unity、 Web平台的全格式内容展示 VR Suite SDK,为合作伙伴提供基础的 VR内容播放技术支持。 目前,教育方向产品 “ 百度 VR教室 ” 已经在安徽、浙江、上海、湖北、天津等多地学校 落地并常态化运营 ;“ VR新商科实验室 ” 也已在山大、矿大多 所高校落地中。 百度还 积极 推动 VR技术在 5G+教育场景有效落地,上海市愚一小学已成为全国首家应用 5G Cloud VR 的教学点。营销

51、方面,百度 VR联合优信二手车,推出了全国领先的 “ VR看车 ” 软硬一体 化解决方案,助力优信二手车全国购战略升级。  增强现实的自动驾驶仿真  自动驾驶系统对安全性有着严苛的要求,相比于花费几年甚至更久时间让自动驾驶车 辆接受足够的道路测试,通过仿真系统测试来评估、提高其安全性极具可操作性和现实意 义。百度开发了一种增强现实的自动驾驶仿真系统,通过模拟交通流来增强现实世界图像, 进而创建逼真的、 媲美现实世界渲染的仿真场景,为自动驾驶车辆提供更为可靠且廉价的 仿真模拟方法,可大规模用于训练和测试评估自动驾驶系统的感知、决策和路径规划算法。 该系统相较于现有仿真系统,在真实感、扩展性等方面都实现了突破性的技术进展,并发 表于科学杂志机器人学子刊 19。  19 四、 认知层  多年来,百度深耕语言与知识技术,并在 知识图谱 、 语义理解、机器翻译等方面取得 了一系列丰硕的成果,实现了大规模产业化应用,获得国家科技进步二等奖、中国电子学 会科技进步一等奖、中国专利银奖等奖励。  百度知识图谱依托海量互联网数据,综

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 报告技术规范 > 白皮书


客服微信号:hustnews2016
悟道方案版权所有
经营许可证编号:鄂ICP备19004533号-1