一场音视频搜索技术的革命

据美国《科技评论》杂志6月12日报道,总部位于美国波士顿的EveryZing开发了新一代音视频搜索引擎。 该产品有望改变以往在线音视频内容的搜索方式。

据悉,这款产品的前身是Podzinger。 它采用BBN的语音识别技术,可以自动将语音转换为纯文本作为搜索关键词的一部分。 网民甚至可以指定只收听包含他们搜索关键字的一小段音频,而不是收听整个音频文件。 而且搜索技术,这款产品进一步扩展了BBN原有技术的性能,语音转明文的准确率可达80%。 EveryZing 的首席执行官汤姆·王尔德 (Tom Wilde) 认为,这在音频和视频搜索领域已经是最好的了。

据悉,EveryZing新品的底层技术由BBN的两项基础技术组成。 其中之一是语音转文本技术。 “这项技术在过去五年中从美国政府获得了 5000 万美元的资助,”Tom Wilde 说。 该技术以同步方式将语音转换为文本。 第二种技术,处理文本内容的算法,允许系统识别一些模棱两可的单词和短语。

相关信息显示,在目前上网的各种需求中,观看视频已经成为继下载和浏览网页之后的第三大需求。 随着技术的发展,各种终端的使用,尤其是使用电脑和手机观看视频,是已经发生和正在发生的重要变化。 如果你只用电视看视频节目内容,那么你可能会成为“今日之古人”。 自20世纪90年代中期开始,互联网上的流媒体(Streaming Media)技术开始兴起。 经过10多年的发展,Webcasting已经成为一个独立的概念和分支。

然而,对于目前主流的搜索引擎技术来说,最薄弱的环节是音视频搜索。 目前,大多数网络搜索引擎通过扫描和分析与网页内容一致的“元数据”(Metadata)来搜索多媒体文件。 所谓元数据是指出现在网页上的文件的一些信息,如视频文件的标签、分辨率、版权信息、关键字等,用于为其他网提供链接到该文件的链接。 然而,由于元数据往往不完整或与音视频本身的内容不一致,导致搜索结果的准确性和相关性往往不是很高,不能令人满意。 对于主导市场并拥有最佳搜索技术的谷歌和雅虎这样的公司来说,这是一个主要弱点。

近年来搜索技术,BBN、麻省理工学院、卡内基梅隆大学、IBM等开始致力于“语音转文本技术”的研究。 其中,很多初期的工作都是在BBN开始的。 BBN Corporation 自 20 世纪 40 年代末以来一直从事声学研究,并且是美国国防高级研究计划局 (DARPA) 大多数语音识别研究项目的主要承担者。 2006年,BBN发布了新的搜索引擎Podzinger,利用其语音识别技术,将“语音转文字技术”应用于互联网音视频搜索。 这对于使用“元数据”进行简单搜索的主流搜索引擎来说,无疑是一个根本性的威胁。

卡内基梅隆大学计算机科学学院电气与计算机工程系教授理查德·斯特恩认为,具有这些功能的音频和视频搜索引擎的出现正合时宜。 “与文字信息相比,音频和视频是目前互联网上更具吸引力的内容,在网络内容中占据了相当大的比重。” 他认为,目前80%的准确率已经是一个相当大的成就了。 搜索在线内容绰绰有余。

“但是,这项技术仍有改进的空间。” 汤姆王尔德说。 比如有背景音乐或者多人在一起聊天时,软件识别的准确率会下降。 不过,他相信这项技术将对公司目前正在开发的信息娱乐和新闻市场产生相当大的影响。

限 时 特 惠: 本每日持续更新海量各大内部创业教程,一年会员只需98元,全资源免费下载 
优惠码(不再需要): xnbaoku

声明:本站内容转载于网络,版权归原作者所有,仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任,若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!

大鱼项目网 » 一场音视频搜索技术的革命