语音云的百度语音开放介绍

如题所述

第1个回答  2016-06-03

百度凭借在语音核心技术上的长期积累,为广大开发者提供了业界领先的语音技术服务,百度语音技术在之前已经应用在众多的自家产品上,10月25日百度正式宣布对外开放语音技术,通过百度语音技术服务,开发者可以轻易获取强大的语音技术能力,抛开繁复的技术细节,专注于业务逻辑的优化,快速构建各种语音交互应用,开发者可以在百度开发者中心上申请开发自己的语音产品 。
永久免费与深度定制
2013年8月22日百度世界大会上,百度宣布语音识别技术及能力全面开放。在百度的引领下,围绕语音识别的全新体系和大数据生态正式开始在移动互联网领域发光发热。时隔两个月,百度语音识别SDK正式发布,这一点是对应用开发者是最具诱惑力的。它可以向开发者提供长文本语音输入,语音搜索词识别,垂直领域识别等多方面的语音识别服务。另外,语音识别SDK还支持“即说即得”的技术,在用户输入语音的同时就返回给用户连续的中间结果,提升用户体验。而最为吸引人的是,相较于其他同类语音识别技术以授权费方式获取收入的方式,百度将面向开发者无条件免费开放整个语音生态系统,同时支持针对不同应用所进行的深度定制。
据了解,此次百度语音识别SDK刚刚开始发放,便已与多家手机应用进行了合作,包括彩虹公交等。通过“永久免费”与“深度定制”的合作理念已获得了开发者的一致好评。而后续,百度还将会继续开放语义理解和TTS(语音合成)等多项面对应用开发者的服务,包括支持用户定制化语音识别,帮助开发者定制自己的语音应用。
百度语音开放平台将会用户提供更多便利,让用户解放双手,真正实现完全的语音操控.也会让更多移动开发者享受技术进步带来的红利,踏上幸福创业的道路.
各界巨头与百度语音深度合作
福特汽车如是说:
首先,福特汽车不仅仅是一家汽车公司, 也是一家科技公司, 致力于为消费者打造即有趣又安全的驾驶体验。调查显示,移动出行成为人们越来越重要的生活与工作方式,对于在出行路途上的移动通信,智能办公的需求也越来越多样化。福特针对这样的需求,开发了支持MyFord Touch功能的SYNC车载多媒体通讯娱乐系统,该套智能互联系统让驾驶者仅需通过语音指令就能轻松控制车内影音娱乐及温度调节等功能,在此基础上,我们又面向中国市场推出了SYNC® AppLink™的功能,实现智能手机应用程序与搭载AppLink的车辆之间更好的互联。这样,通过AppLink,车主可以把他们的智能手机连接到车内,使用福特SYNC语音指令连接系统,在他们的驾驶座上控制智能手机上的应用程序。
我们此次和百度的合作目标就是通过百度的强大语音应用能力让用户在驾车过程中,与外界实现无缝连接,同时又保持目不离路,手不离方向盘。如果这块能做好,未来就有很多可想象的空间。比如我开车要去另一个城市,那么这个城市现在的天气状况如何呢,通过和百度的合作,我们就可以做到用语音直接查询,而不是之前的听广播或者停车打开天气类app去查,类似这种场景还有很多,这也需要两个行业之间不断的碰撞和创新。
中兴手机如是说:
作为全球做大的手机终端厂商之一,中兴一直以来都以为用户打造完美体验为最终目标,而我们这次是要打造的产品专为开车用户打造,该产品的最终目的是希望人们在车载环境中实现手机操作的handfree,接打电话、收发短信、查地图、导航这些在车载环境中经常被使用的手机功能全部通过语音操控来实现。
我们对合作方有两个要求,一是语音技术要过硬,二是要有相应的资源尤其是地图和导航,如果语音和资源的提供方属于两家公司的话这个产品几乎是无法完成的,而百度是所有互联网公司中唯一符合要求的,经过我们的测试,百度的语音识别技术已经达到了一流水准,并且满足我们语音唤醒、离线识别等各种要求,除了语音技术外,百度还可以提供导航资源,可以提供众多城市的离线下载包,直接将语音交互和导航进行结合。
康佳电视如是说:
智能电视是未来的潮流,未来将会成为家庭智能媒体中心,而康佳作为电视行业的一支劲旅也早早的觉察到了这一点,我们认为智能电视不仅仅是内容收看模式的变革,同时也是人机交互的一个革命,传统的遥控器已经远远不能满足智能电视用户的需求,而语音交互则成为智能电视最佳的交互方式,通过语音控制实现换台、各项功能设置、搜索视频资源等都已经开始成为智能电视的标配,我们甚至可以根据语音来判断用户的属性然后提供不同的内容给用户。同时,作为家庭智能媒体中心,电视也不会仅仅用来看,还可以用来玩游戏、购物、查资讯,所有的互联网行为几乎都可以在电视上实现。
百度的语音识别技术这个不用多说,更重要的是百度拥有的网络资源,例如用户在电视上看到一款车非常漂亮想知道这辆车多少钱,一般情况下用户会用电脑或者手机去搜索,而和百度合作后可以直接使用语音查询,百度就会给出令用户满意的结果。
百度语音的基本服务架构

  
  
  
  
功能特点描述
支持Android和iOS平台SDK
Android支持2.2及以上版本, iOS支持iOS 5.0及以上版本。
针对场景深度优化
支持适用于搜索及指令场景的短文本识别和适用于短信、微博等输入的长文本识别模式。
针对领域优化,使垂直类应用有更好的识别效果
基于百度海量的数据资源,提供针对音乐、视频、应用、网站搜索及地图POI的识别优化。
特定场景的语义解析
支持提醒、电话、应用、日历、通讯录、航班、酒店、短信、音乐、手机设置、社交网络、火车、旅游、天气、网址、地图、通用指令等19个场景。
自动端点断点检测和数据传输,极致优化流量消耗
智能VAD检测技术,分析用户说话的起点、尾点同时计算出声音强度, 只传输有效数据,节约流量。
丰富可配置的UI组件
提供语音识别UI组件,自动音量反馈,并提供支持亮蓝、暗橙、亮红等八种主题,让开发者最低成本集成。
提供底层API,更加灵活强大提供底层识别API,使用方式更加灵活强大
开放原始API接口, 开发者可以灵活构建语音识别使用场景,不干扰当前交互流程。开放底层API接口,开发者可以灵活实现各种语音识别交互方式。弹窗或对话式,一切由你而定。
详尽的服务统计及API使用管理
服务控制台支持详细的服务统计查询及服务使用频次管理,方便开发者掌握服务使用情况及变化趋势。
核心技术特色
用户个性化的声音建模技术和海量数据的区分度训练技术
- 区分度的GMM模型训练LDA, MPE, SAT, FMLLR, FMPE等
- 上万小时的声学模型训练数据,覆盖主要汉语普通话使用人群
海量语言模型的高速训练和自适应更新技术
- 支持T级语料的统计语言模型的高速训练和更新
- 支持短信,微博,地图,音乐,旅游,视频,APP等垂直领域的综合建模
支持复杂汉语语义空间的一遍解码技术
- 支持百亿文法的语言模型的一遍解码
- 支持包含语义信息的语法模型和普通统计语言模型混合解码
- 能够支持数百万量级词典的复杂语义空间建模
- 精度和速度统一的解码算法
深度神经网络声学建模技术
- 支持海量数据的深度神经网络并行训练
- 支持个性化的深度神经网络建模技术
深度语义理解
- 融合依存句法分析、信息抽取、短文本分类等自然语言处理技术以及多种机器学习算法
- 多领域的深度语义解析,领域无关的信息抽取、专名识别、语义归一化等浅层语义标注
- 基于海量网页、搜索以及社区数据挖掘,具备智能纠错、推理等技术