一種基于語音識別的文本定位和選擇方法

文檔序號：6442479閱讀：185來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于語音識別的文本定位和選擇方法
技術(shù)領(lǐng)域：
本發(fā)明涉及系統(tǒng)軟件，語音識別技術(shù)領(lǐng)域，更具體地說，涉及一種基于語音識別的文本定位和選擇方法。
背景技術(shù)：
傳統(tǒng)的文本選擇方式在各個終端上都需要用戶進行手工的各種操作，包含電腦上的鼠標(biāo)拖拉選擇，鍵盤操作，智能終端上通過觸摸屏觸摸進行選擇，在某些特定的場景下存在困難，如觸摸屏的靈敏度，用戶手指的靈活度，都會影響在屏幕上的選擇操作，尤其是在屏幕較小的智能終端上，用戶精確定位文本并選擇經(jīng)常存在各種問題，需要反復(fù)進行定位和選擇。而語音識別已經(jīng)成為各種智能終端和系統(tǒng)的普遍的能力的情況下，通過語音識別獲取用戶的意圖，可以精確選取對應(yīng)的用戶需要選擇和定位的文本，方便了用戶的操作，為用戶在不同環(huán)境下的操作提供一個選擇。

發(fā)明內(nèi)容
通過用戶口述部分內(nèi)容，終端或系統(tǒng)進行語音的識別，將用戶口述的語音片段轉(zhuǎn)換為文本內(nèi)容，并以該部分文字內(nèi)容為關(guān)鍵詞搜索當(dāng)前的終端上的活動窗口上顯示的文本，并基于搜索結(jié)果識別文本進行定位，定位成功后選取對應(yīng)的內(nèi)容，從而幫助用戶快速選取對應(yīng)的內(nèi)容以進行進一步的操作，為用戶提供了使用簡單快捷的一種基于語音識別的文本定位和選擇方法。進一步的，通過所提供的一種基于語音識別的文本定位和選擇方法為用戶使用各種終端的應(yīng)用的發(fā)展提供有力保障，滿足各方要求，提升用戶友好體驗。為實現(xiàn)上述目的，本發(fā)明的一個方面提供了一種基于語音識別的文本定位和選擇方法，該方法包括:
在終端上通過用戶口述需要選取的內(nèi)容，在終端或系統(tǒng)進行語音識別，轉(zhuǎn)換為文字并以識別結(jié)果為關(guān)鍵詞發(fā)起當(dāng)前活動窗口的文本內(nèi)容的搜索，獲取識別文本的定位并基于位置選擇對應(yīng)的文本內(nèi)容。終端包含了傳統(tǒng)電腦，手機，平板電腦等支持語音獲取和網(wǎng)絡(luò)功能的各種終端設(shè)備。本發(fā)明提供的一種基于語音識別的文本定位和選擇方法的一個實施例中，該方法還包括:
用戶口述的內(nèi)容片段，終端通過麥克風(fēng)獲取和記錄用戶語音數(shù)據(jù)，轉(zhuǎn)換為語音識別要求的語音格式，根據(jù)終端設(shè)備軟硬件識別能力選擇在終端進行語音識別，或通過以服務(wù)方式開放的系統(tǒng)端語音識別接口請求系統(tǒng)進行語音識別，獲取語音對應(yīng)的文本。根據(jù)終端軟硬件環(huán)境和能力，終端可以加載語音識別模塊，也可以通過發(fā)送獲取的音頻內(nèi)容到系統(tǒng)在線語音識別服務(wù)進行內(nèi)容的識別，并在識別后發(fā)起當(dāng)前活動窗口的文本的搜索和定位。本發(fā)明提供的一種基于語音識別的文本定位和選擇方法的一個實施例中，該方法還包括:
終端在獲取對應(yīng)語音的文本內(nèi)容后，在當(dāng)前的活動窗口搜索對應(yīng)的文本，搜索到文本后定位文本的位置，并按照當(dāng)前終端系統(tǒng)的選擇方式對文本進行加亮等操作，用戶隨后可以呼出對應(yīng)菜單進行進一步的操作。本發(fā)明提供的一種基于語音識別的文本定位和選擇方法的一個實施例中，該方法還包括:
定位到對應(yīng)的文本內(nèi)容后，用戶可以通過按鍵等方式呼出對應(yīng)的選擇菜單，菜單包含各種操作選擇項，包含常見的復(fù)制，剪切，分享等各種操作。
具體來說具有以下優(yōu)點:
使用方式簡單:
用戶簡單地口述部分語句即可獲取對應(yīng)內(nèi)容文本后進行定位和選擇以及進一步的各種操作，系統(tǒng)自動進行語句的識別，解析和識別，實現(xiàn)方式簡單便捷。云模式識別:
滿足不同能力的終端，可以在終端進行語音的識別，也可以通過系統(tǒng)端的語音識別服務(wù)進行語音識別，滿足了不同硬件層次能力的終端。定位準(zhǔn)確:
通過系統(tǒng)自動進行文本的選擇和定位，無需用戶手動進行選擇，避免了各種終端的硬件缺陷以及用戶操作靈活度的問題，提高了定位和選擇的精度。

此處所說明的附圖用來提供對本發(fā)明的進一步理解，構(gòu)成本申請的一部分，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1為本發(fā)明系統(tǒng)模塊結(jié)構(gòu)的示意圖。圖2為本發(fā)明業(yè)務(wù)流程示意圖。圖3為本發(fā)明語音識別流程示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述，其中說明本發(fā)明的示例性實施例。為實現(xiàn)上述目的，提出了一種基于語音識別的文本定位和選擇方法。以下通過結(jié)合附圖，對本發(fā)明的實施方式進行描述
實現(xiàn)一種基于語音識別的文本定位和選擇方法的關(guān)鍵點如下:
語音獲取:
用戶通過終端麥克風(fēng)錄下用戶選取和口述的部分內(nèi)容片段內(nèi)容并編碼壓縮成語音識別接受的語音格式。
語音識別:
用戶口述文字啟動語音識別，識別模塊在終端或系統(tǒng)端，根據(jù)終端能力在終端安裝語音識別庫進行語音識別，或系統(tǒng)端提供語音識別能力并以服務(wù)形式進行開放，終端請求系統(tǒng)端的語音識別服務(wù)，提交記錄的語音數(shù)據(jù)，系統(tǒng)進行語音識別。內(nèi)容搜索和定位:
在終端獲取對應(yīng)的語音文本后，終端側(cè)基于文本進行內(nèi)容的搜索和定位，自動將搜索到的內(nèi)容進行選擇，以反色等常規(guī)選取表現(xiàn)方式將文本進行選擇，用戶隨即可以基于這些選擇的文本呼出操作菜單，包含復(fù)制，剪切，分享等各種操作。
主要功能模塊如圖1所示:
移動終端側(cè):
終端是指具備移動互聯(lián)網(wǎng)網(wǎng)功能和相機的各種智能終端設(shè)備，包含智能手機，帶移動數(shù)據(jù)功能的平板電腦等設(shè)備；
用戶終端100:
用戶終端是指各種具備操作系統(tǒng)的設(shè)備，包含電腦，平板，智能手機等各種智能設(shè)備并具備網(wǎng)絡(luò)功能。業(yè)務(wù)邏輯101:
終端業(yè)務(wù)邏輯，控制和調(diào)用各個業(yè)務(wù)的邏輯功能以及業(yè)務(wù)流程，并與周邊的各個功能模塊進行數(shù)據(jù)的傳遞和功能的調(diào)用。語音獲取模塊102:
調(diào)用終端音頻功能和麥克風(fēng)記錄用戶語音，并轉(zhuǎn)換為識別服務(wù)模塊要求的語音格式，提供給識別模塊進行內(nèi)容的識別。內(nèi)容操作模塊103:
在對文本進行定位后，提供對應(yīng)文本的操作選項，用戶基于內(nèi)容操作可以對內(nèi)容進行進一步的各種操作，如復(fù)制，剪切等。配置管理模塊104:
終端側(cè)用戶進行各種用戶參數(shù)和業(yè)務(wù)參數(shù)的配置，包含用戶數(shù)據(jù)配置，業(yè)務(wù)參數(shù)配置
坐寸ο內(nèi)容搜索定位模塊105:
在獲取到語音識別的結(jié)果文本后，終端應(yīng)用將結(jié)果文本作為關(guān)鍵詞進行搜索當(dāng)前窗口的內(nèi)容，并基于搜索的結(jié)果進行光標(biāo)的定位和內(nèi)容的選擇。語音識別模塊106:
終端側(cè)可選模塊，在終端具備語音識別能力的情況下識別用戶口述的語音內(nèi)容，并將其轉(zhuǎn)換為文字提供給搜索等其他功能模塊。服務(wù)請求模塊107:
請求系統(tǒng)遠程語音識別等遠程服務(wù)的功能模塊，終端通過服務(wù)請求模塊生成各種服務(wù)請求，請求遠程系統(tǒng)提供各種服務(wù)功能，包含識別服務(wù)等。接口模塊 108:
終端與系統(tǒng)之間的數(shù)據(jù)接口，通過接口發(fā)送和接收系統(tǒng)端的服務(wù)響應(yīng)消息的各種數(shù)據(jù)。傳輸通道109:
包含移動網(wǎng)和互聯(lián)網(wǎng)，承載數(shù)據(jù)傳輸通道和各種業(yè)務(wù)，傳輸終端和系統(tǒng)之間的各種數(shù)據(jù)。
系統(tǒng)側(cè):系統(tǒng)端為不具備本地語音識別的終端提供服務(wù)，是可選的部分。服務(wù)接口模塊110:
定義系統(tǒng)端提供的服務(wù)訪問的方式和參數(shù)，負(fù)責(zé)與終端通過數(shù)據(jù)網(wǎng)進行通信，獲取移動終端提交的請求和消息交互的各種數(shù)據(jù)。業(yè)務(wù)邏輯模塊111:
根據(jù)用戶提交的各種請求以及請求數(shù)據(jù)執(zhí)行各個對應(yīng)的業(yè)務(wù)邏輯并負(fù)責(zé)控制和調(diào)用周邊的功能模塊進行通信并交換各種數(shù)據(jù)已完成各種業(yè)務(wù)邏輯功能。安全模塊112:
負(fù)責(zé)系統(tǒng)對用戶及業(yè)務(wù)請求的安全管理，對用戶和終端進行鑒權(quán)認(rèn)證，以及保障數(shù)據(jù)傳輸?shù)陌踩?，包含?shù)據(jù)的加密解密等涉及業(yè)務(wù)安全的各種功能。語音識別模塊113:
系統(tǒng)負(fù)責(zé)識別終端側(cè)發(fā)送的原始數(shù)據(jù)內(nèi)容，通過接口服務(wù)，終端遠程調(diào)用系統(tǒng)識別模塊的識別服務(wù)，并將識別結(jié)果提交給其他功能模塊以繼續(xù)下一步流程。系統(tǒng)管理模塊114:
對整個系統(tǒng)進行管理和配置，包含用戶管理，日志記錄和管理，業(yè)務(wù)邏輯的管理等等。
圖3示出本發(fā)明語音識別流程示意圖，步驟如下。I)用戶打開應(yīng)用；
2)用戶口述需要定位和選擇的文本；
3)終端獲取用戶的語音數(shù)據(jù)；
4)根據(jù)識別方式，選擇在終端本地或系統(tǒng)進行識別；
5)獲取識別結(jié)果后，應(yīng)用以識別結(jié)果發(fā)起文本的搜索和定位；
6)對定位的文本,應(yīng)用選取對應(yīng)的文本并進行加亮；
7)用戶隨即可以采取呼出菜單進行進一步操作。
下面舉一個例子來說明本發(fā)明系統(tǒng)的移動終端通過語音方式觸發(fā)業(yè)務(wù)的流程，如圖2所示，該實施例中，業(yè)務(wù)包括以下步驟:
步驟1:用戶打開終端應(yīng)用，口述物部分內(nèi)容；
步驟2:終端通過麥克風(fēng)記錄用戶語音，轉(zhuǎn)換成音頻格式數(shù)據(jù)，根據(jù)識別方式提交終端或系統(tǒng)進行語音的識別；
步驟3:終端或系統(tǒng)進行語音識別，獲取語音對應(yīng)的文本內(nèi)容；
步驟4.終端應(yīng)用將獲取的句子作為搜索參數(shù)發(fā)起搜索和定位；
步驟5.終端應(yīng)用檢索到包含語音識別結(jié)果的內(nèi)容后，定位該內(nèi)容并選擇對應(yīng)的文本并加亮顯示；步驟6.用戶可以采取呼出菜單方式進行進一步操作，包含復(fù)制，剪切等。
本發(fā)明的描述是為了示例和說明起見而給出的，而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用，并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。
權(quán)利要求
1.一種基于語音識別的文本定位和選擇方法，其特征在于，在終端上通過用戶口述需要選取的內(nèi)容，在終端或系統(tǒng)進行語音識別，轉(zhuǎn)換為文字并以識別結(jié)果為關(guān)鍵詞發(fā)起當(dāng)前活動窗口的文本內(nèi)容的搜索，獲取識別文本的定位并基于位置選擇對應(yīng)的文本內(nèi)容。
2.如權(quán)利要求1所述，終端是包含各種固定或便攜的終端設(shè)備，其特征在于，終端包含了傳統(tǒng)電腦，手機，平板電腦等支持語音獲取和網(wǎng)絡(luò)功能的各種終端設(shè)備。
3.如權(quán)利要求1所述，用戶口述部分內(nèi)容片段，終端記錄該語音并進行識別，其特征在于，用戶口述的內(nèi)容片段，終端通過麥克風(fēng)獲取和記錄用戶語音數(shù)據(jù)，轉(zhuǎn)換為語音識別要求的語音格式，根據(jù)終端設(shè)備軟硬件識別能力選擇在終端進行語音識別，或通過以服務(wù)方式開放的系統(tǒng)端語音識別接口請求系統(tǒng)進行語音識別，獲取語音對應(yīng)的文本。
4.如權(quán)利要求3所述，終端獲取語音內(nèi)容后在終端本地或系統(tǒng)進行識別，其特征在于，根據(jù)終端軟硬件環(huán)境和能力，終端可以加載語音識別模塊，也可以通過發(fā)送獲取的音頻內(nèi)容到系統(tǒng)在線語音識別服務(wù)進行內(nèi)容的識別，并在識別后發(fā)起當(dāng)前活動窗口的文本的搜索和定位。
5.如權(quán)利要求4所述，終端獲取語音對應(yīng)的文本內(nèi)容后發(fā)起內(nèi)容文本的搜索和定位，其特征在于，終端在獲取對應(yīng)語音的文本內(nèi)容后，在當(dāng)前的活動窗口搜索對應(yīng)的文本，搜索到文本后定位文本的位置，并按照當(dāng)前終端系統(tǒng)的選擇方式對文本進行加亮等操作，用戶隨后可以呼出對應(yīng)菜單進行進一步的操作。
6.如權(quán)利要求5所述，終端按照當(dāng)前終端系統(tǒng)的選擇方式對文本進行加亮等操作，用戶隨后可以呼出對應(yīng)菜單進行進一步的操作，其特征在于，定位到對應(yīng)的文本內(nèi)容后，用戶可以通過按鍵等方式呼出對應(yīng)的選擇菜單，菜單包含各種操作選擇項，包含常見的復(fù)制，剪切，分享等各種操作。
全文摘要
本發(fā)明揭示了一種基于語音識別的文本定位和選擇方法，包含語音識別模塊，文本選擇模塊、業(yè)務(wù)邏輯模塊等。本發(fā)明通過用戶口述部分內(nèi)容，終端或系統(tǒng)進行語音的識別，將用戶口述的語音片段轉(zhuǎn)換為文本內(nèi)容，并以該部分文字內(nèi)容為關(guān)鍵詞搜索當(dāng)前的終端上的活動窗口上顯示的文本，并基于搜索結(jié)果識別文本進行定位，定位成功后選取對應(yīng)的內(nèi)容，從而幫助用戶快速選取對應(yīng)的內(nèi)容以進行進一步的操作。本發(fā)明通過用戶口述內(nèi)容進行識別并搜索當(dāng)前活動窗口的文本內(nèi)容并進行定位和選取，為用戶提供了一種文本選擇的方法。
文檔編號G06F3/01GK103176591SQ20111043282
公開日2013年6月26日申請日期2011年12月21日優(yōu)先權(quán)日2011年12月21日
發(fā)明者顧健申請人:上海博路信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：顧健
技術(shù)所有人：上海博路信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種基于ocr的閱讀輔助系統(tǒng)的制作方法
上一篇：一種云模式的上網(wǎng)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別測試方法相關(guān)技術(shù)

語音識別方法相關(guān)技術(shù)

語音識別的方法相關(guān)技術(shù)

文本特征選擇方法相關(guān)技術(shù)

文本分類特征選擇方法相關(guān)技術(shù)

語音識別相關(guān)技術(shù)

百度語音識別相關(guān)技術(shù)

語音識別成文字相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于語音識別的文本定位和選擇方法