技術(shù)編號(hào):11250871
提示:您尚未登錄,請(qǐng)點(diǎn) 登 陸 后下載,如果您還沒(méi)有賬戶(hù)請(qǐng)點(diǎn) 注 冊(cè) ,登陸完成后,請(qǐng)刷新本頁(yè)查看技術(shù)詳細(xì)信息。本發(fā)明屬于中文自然語(yǔ)言處理領(lǐng)域,特別涉及一種海量文本中基于詞向量表征的新詞發(fā)現(xiàn)方法及系統(tǒng)。背景技術(shù)新詞發(fā)現(xiàn)是中文自然語(yǔ)言處理研究領(lǐng)域一個(gè)非常重要的研究?jī)?nèi)容。由于中文不像英文等許多西方語(yǔ)言,詞和詞之間有固定的分隔符,所以分詞通常作為中文信息處理任務(wù)最開(kāi)始的一個(gè)必要步驟,而新詞發(fā)現(xiàn)又與分詞緊密相關(guān)。Sproat和Emerson指出新詞的出現(xiàn)很大程度上影響著分詞工具的分詞準(zhǔn)確性,60%的分詞錯(cuò)誤是由新詞引起的。在新詞任務(wù)中,對(duì)于“新詞”并沒(méi)有一個(gè)明確界定的概念。在中文分詞領(lǐng)域,有新詞和未登錄詞兩種概念...
注意:該技術(shù)已申請(qǐng)專(zhuān)利,請(qǐng)尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專(zhuān)利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專(zhuān)利適合技術(shù)人員進(jìn)行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識(shí)儲(chǔ)備,不適合論文引用。
請(qǐng)注意,此類(lèi)技術(shù)沒(méi)有源代碼,用于學(xué)習(xí)研究技術(shù)思路。