您好,歡迎訪問捷聯(lián)科技官方網(wǎng)站!
總部熱線:0769-33810128 XAI登錄
web2.0時(shí)代告開啟音頻搜索新紀(jì)元
發(fā)布于:2008/7/12 8:27:32   點(diǎn)擊率:2438

原文出自《互聯(lián)網(wǎng)周刊》

web2.0時(shí)代告別簡(jiǎn)單搜索時(shí)代

娛樂化生活、web2.0時(shí)代,簡(jiǎn)單的搜索早已不能滿足我們的需求,我們正急于迎接一場(chǎng)搜索理念的變革,一個(gè)全新搜索時(shí)代的到來。

小琦在收音機(jī)里偶然聽到一首動(dòng)人的歌曲,但是主持人并沒有報(bào)出這首歌的名字,于是他馬上抄筆記下歌詞,希望通過網(wǎng)絡(luò)搜索獲得這首歌的信息,在百度(企業(yè)庫 論壇)的歌詞搜索里輸入這句歌詞后,他很快得到了想要的結(jié)果。

關(guān)于通過音頻內(nèi)容文字來搜索音頻的概念,我們很快會(huì)聯(lián)想(企業(yè)庫 論壇)到如小琦一樣的搜索經(jīng)驗(yàn),似乎將音頻與文字掛鉤的技術(shù)早已不算是什么新鮮玩意,那么為什么日本產(chǎn)業(yè)技術(shù)綜合研究所日前發(fā)布的一個(gè)音頻搜索網(wǎng)站會(huì)得到業(yè)界如此廣泛的關(guān)注呢?

不僅僅是歌曲

同樣是小琦,這次當(dāng)他想通過在節(jié)目里聽到的字句來搜索一段相聲的時(shí)候卻出了問題,搜索答案五花八門,卻找不到他想要的。

通常,我們使用最多的音頻搜索都是針對(duì)于某一首歌曲的搜索,而它的歌詞與歌曲的發(fā)布往往是同步的,整合這些數(shù)據(jù)并不需要多大的技術(shù)支持,因?yàn)檫@些內(nèi)容都已經(jīng)是現(xiàn)成的。然而除了歌曲,官方的一些朗誦、彩鈴、評(píng)書、對(duì)白等作品,以及隨著web2.0時(shí)代的到來,網(wǎng)絡(luò)上涌現(xiàn)的大量草根族作品,如一段用錄音筆隨手錄下的講話、自我娛樂的博客音頻等等,各種以聲音為載體的信息也都通過網(wǎng)絡(luò)這種渠道傳播開來。如何在這樣浩繁的數(shù)據(jù)庫里查找所需的片斷,成為困擾互聯(lián)網(wǎng)搜索的難題。我們會(huì)通過其他的渠道如電視、廣播等獲得相關(guān)的信息,當(dāng)我們被某一個(gè)信息吸引的時(shí)候,我們就有了獲得它本身甚至更多邊緣信息的需要。如果我們手里只掌握這個(gè)音頻本身內(nèi)容中的若干字句,沒有它的名字、作者,乃至更多的信息,怎么搜到我們想要的?于是我們發(fā)現(xiàn),尋常意義上的簡(jiǎn)單音頻搜索已很難滿足我們的需求了。

除了那些本身已有歌詞文字可考的歌曲文件,更多的聲音文件需要有一個(gè)后臺(tái)將他們的內(nèi)容轉(zhuǎn)化為文字,方便用戶的搜索操作。于是日本的這個(gè)名為Podcastle的網(wǎng)站經(jīng)過多年探索,終于在6月上線,真正實(shí)現(xiàn)了通過內(nèi)容文字進(jìn)行音頻搜索。這項(xiàng)服務(wù)采用聲音識(shí)別技術(shù),將聲音數(shù)據(jù)全部自動(dòng)轉(zhuǎn)換成文字,收集到數(shù)據(jù)庫中,使人們方便地進(jìn)行音頻檢索。比如在網(wǎng)站搜索欄中輸入日文“”,就能搜索到出現(xiàn)“”這個(gè)字的音頻資料。

前人的腳印

其實(shí)早在一年前,波士頓初創(chuàng)公司EveryZing便推出了一款與前者設(shè)計(jì)原理異曲同工的視頻和音頻搜索引擎——PodZinger,這是一款播客搜索引擎,它采用了BBN技術(shù)公司開發(fā)的一種語言系統(tǒng),可將音頻內(nèi)容轉(zhuǎn)換成文本,而且準(zhǔn)確率在80%以上,足以體現(xiàn)音頻的主要內(nèi)容,能指導(dǎo)用戶迅速在文件中找到某個(gè)搜索目標(biāo)詞出現(xiàn)的地方,并總結(jié)出音頻內(nèi)容的核心意思。

之前《互聯(lián)網(wǎng)視頻革命的第一槍》這篇文章曾對(duì)PodZinger的強(qiáng)大功能作過闡述,Podzinger可以在網(wǎng)絡(luò)上抓取視頻、音頻文件,利用語音識(shí)別技術(shù)深入分析其文件內(nèi)容,根據(jù)用戶搜索需求提交相應(yīng)結(jié)果。它有一種軟件能夠“聽”視頻文件中的語音,并轉(zhuǎn)換成可供搜索引擎使用的文本。搜索結(jié)果中的每個(gè)詞語都可以點(diǎn)開并載入音頻剪輯,在指定的詞匯點(diǎn)上開始播放。這無疑是一種革命性的突破。Podzinger的文本記錄對(duì)于搜索者而言遠(yuǎn)比傳統(tǒng)搜索引擎根據(jù)“元數(shù)據(jù)(Metadata)”搜索結(jié)果所顯示的音頻和視頻剪輯更具有相關(guān)性。

EveryZing公司首席執(zhí)行官Tom Wilde當(dāng)年也曾如此驕傲地介紹這款產(chǎn)品:這么高的準(zhǔn)確度可以帶來許多新搜索功能,比如提供視頻和音頻的完整文本,以及直接跳到話語中某個(gè)詞或者詞組被說出的位置。這項(xiàng)技術(shù)還可以讓公司提供與特定內(nèi)容有關(guān)的有針對(duì)性廣告,就好像Google推出的基于網(wǎng)頁中文本的廣告一樣。

語音識(shí)別的難題

語音識(shí)別這個(gè)概念,我們并不陌生,從孤立詞到大詞匯量連續(xù)語音的識(shí)別(LVCSR),再到語音庫檢索,語音識(shí)別技術(shù)一直在向前發(fā)展,只是語音識(shí)別似乎離我們還有些遙遠(yuǎn)。“今后5年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過語音來完成?!苯衲甑?月23日,比爾·蓋茨在美國(guó)卡內(nèi)基·梅隆大學(xué)發(fā)表演講說道,這已數(shù)不清是他第幾次在公開場(chǎng)合提及語音識(shí)別了。

對(duì)于中文而言,語音識(shí)別技術(shù)的實(shí)現(xiàn)較之英語面臨著更多的困難。當(dāng)南方人把“牛奶”念成“留來”的時(shí)候,究竟是機(jī)器識(shí)別錯(cuò)了,還是人錯(cuò)了?微軟中國(guó)研發(fā)集團(tuán)下屬微軟亞洲研究院語音識(shí)別組組長(zhǎng)宋言哥平提出過這樣一個(gè)問題。而不僅僅是南北口音的偏差,每個(gè)人都有獨(dú)有的發(fā)音習(xí)慣。這就造成了語音輸入很難規(guī)范的問題。其次,噪聲也是一種不可抗的難題?!斑@很好理解,機(jī)器無法像人那樣分辨出人聲和噪聲?!彼窝愿缙浇忉尩溃巴瑫r(shí),不同場(chǎng)景有不同噪聲,訓(xùn)練的情況也不能匹配真實(shí)環(huán)境,這使語音識(shí)別在噪聲中比在安靜的環(huán)境下難得多?!?

克服這些難題尚需時(shí)日,這也是為何中文音頻搜索進(jìn)展緩慢的一個(gè)關(guān)鍵原因。如今日本的音頻搜索網(wǎng)站已經(jīng)上線,中國(guó)的用戶也期待著可以更快享受到這種先進(jìn)搜索技術(shù)帶來的更多便捷。

告別簡(jiǎn)單搜索時(shí)代

在信息瘋狂膨脹的年代,對(duì)于浩瀚信息中的有效資源搜索毫無疑問是相當(dāng)重要的。如今娛樂化風(fēng)潮的涌起,使信息的需求早已不是以往單純的純文本而已,而是更大規(guī)模地?cái)U(kuò)展到音頻、視頻領(lǐng)域。以往單純通過音頻、視頻文件的文本標(biāo)簽來搜索音頻、視頻文件已經(jīng)不足以滿足用戶的需求。

于是出現(xiàn)了這種通過將音視頻內(nèi)容轉(zhuǎn)換成文字的搜索方式。

然而在簡(jiǎn)單搜索之外,還不僅僅是這種運(yùn)用語音識(shí)別系統(tǒng)完成的搜索服務(wù)技術(shù)正在流行。當(dāng)文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時(shí)候,微軟、Google這些技術(shù)巨頭也開始瞄準(zhǔn)未來的新一代搜索市場(chǎng)。今年的4月份,在北京舉行的國(guó)際萬維網(wǎng)大會(huì)上,兩位Google的工程師展示了下一代的圖片搜索。新的圖片搜索不再只是由圖片相關(guān)的文字來判斷圖片的內(nèi)容。Google將使用計(jì)算機(jī)分析圖片中的內(nèi)容,并關(guān)聯(lián)關(guān)鍵字的排名。實(shí)際上,這就相當(dāng)于圖片搜索中PageRank。

在早些時(shí)候,《互聯(lián)網(wǎng)周刊》上也報(bào)道過這樣的消息:新一代圖片搜索技術(shù)已經(jīng)可以像人一樣,“看”到一幅圖片的興趣中心,判別它是人物肖像照或是風(fēng)景照、攝于室內(nèi)還是戶外。甚至,在人的協(xié)助下,計(jì)算機(jī)還能夠在許多張合影中找尋到同一張人臉。這些聽起來不可思議的事情,已經(jīng)在微軟的實(shí)驗(yàn)室里變成了現(xiàn)實(shí),甚至有些技術(shù)已應(yīng)用到部分產(chǎn)品當(dāng)中。

搜索技術(shù)已經(jīng)迎來了一個(gè)新的時(shí)代,在各種新型搜索服務(wù)的幫助下,我們的各種需求都將慢慢得到滿足??萍迹谙蛑尤诵曰囊幻姘l(fā)展,一切,都在為人類生活得更好而努力著。

技術(shù)支持-張先生
點(diǎn)擊這里給我發(fā)消息
營(yíng)銷推廣-郭先生
點(diǎn)擊這里給我發(fā)消息
客服投訴-郭先生
點(diǎn)擊這里給我發(fā)消息