詞的計(jì)算機(jī)執(zhí)行方法,其包括: 從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義; 通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分,其中每個置信得分表示在所述主題詞匯表中定義的兩個術(shù)語是同義詞的概率; 基于所述置信得分建立主題敘詞表。2.如權(quán)利要求1所述的計(jì)算機(jī)執(zhí)行方法,其中從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義包括: 從所述主題詞匯表提取在所述主題詞匯表中定義的第一術(shù)語的定義;其中通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分包括: 創(chuàng)建第一陳述,其中所述第一陳述包含所述第一術(shù)語并且基于從所述主題詞匯表提取的所述第一術(shù)語的定義; 通過在所述第一陳述中用第二術(shù)語替代所述第一術(shù)語創(chuàng)建修改的第一陳述,其中在所述主題詞匯表中定義所述第二術(shù)語; 在語料庫中搜索所述修改的第一陳述是準(zhǔn)確的證據(jù);以及 基于所述修改的第一陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定總置信得分;以及 其中基于所述置信得分建立主題敘詞表包括:如果所述總置信得分大于第一閾值,則將所述第一術(shù)語和所述第二術(shù)語標(biāo)記為同義Τ.κ| ο3.如權(quán)利要求1所述的計(jì)算機(jī)執(zhí)行方法,其中從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義包括: 從所述主題詞匯表提取在所述主題詞匯表中定義的第一術(shù)語的定義; 從所述主題詞匯表提取在所述主題詞匯表中定義的第二術(shù)語的定義;其中通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分包括: 創(chuàng)建第一陳述,其中所述第一陳述包含所述第一術(shù)語并且基于從所述主題詞匯表提取的所述第一術(shù)語的定義; 通過在所述第一陳述中用所述第二術(shù)語替代所述第一術(shù)語創(chuàng)建修改的第一陳述; 在語料庫中搜索所述修改的第一陳述是準(zhǔn)確的證據(jù); 基于所述修改的第一陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定第一置信得分; 創(chuàng)建第二陳述,其中所述第二陳述包含所述第二術(shù)語并且基于從所述主題詞匯表提取的所述第二術(shù)語的定義; 通過在所述第二陳述中用所述第一術(shù)語替代所述第二術(shù)語創(chuàng)建修改的第二陳述; 在語料庫中搜索所述修改的第二陳述是準(zhǔn)確的證據(jù); 基于所述修改的第二陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定第二置信得分; 基于所述第一置信得分和所述第二置信得分計(jì)算總置信得分;以及 其中基于所述置信得分建立主題敘詞表包括:如果所述總置信得分大于第一閾值,則將所述第一術(shù)語和所述第二術(shù)語標(biāo)記為同義Τ.κ| ο4.如權(quán)利要求2所述的計(jì)算機(jī)執(zhí)行方法,其還包括: 如果所述總置信得分大于第二閾值,則選擇所述第一術(shù)語和所述第二術(shù)語作為可能的同義詞以便由人類主題專家復(fù)查,其中所述第二閾值小于所述第一閾值。5.如權(quán)利要求1所述的計(jì)算機(jī)執(zhí)行方法,其中所述自然語言處理包括段落術(shù)語匹配、詞匯匹配和句法匹配中的至少一種。6.如權(quán)利要求2所述的計(jì)算機(jī)執(zhí)行方法,其中使用機(jī)器學(xué)習(xí)確定所述第一閾值。7.如權(quán)利要求6所述的計(jì)算機(jī)執(zhí)行方法,其中所述機(jī)器學(xué)習(xí)包括計(jì)算多個已知的同義詞對的每一個的總置信得分。8.—種用于從在主題詞匯表中定義的術(shù)語的定義創(chuàng)建主題同義詞的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括具有隨其具體化的程序代碼的計(jì)算機(jī)可讀存儲介質(zhì),所述程序代碼可由處理器執(zhí)行以執(zhí)行方法,所述方法包括: 從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義; 通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分,其中每個置信得分表示在所述主題詞匯表中定義的兩個術(shù)語是同義詞的概率; 基于所述置信得分建立主題敘詞表。9.如權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義包括: 從所述主題詞匯表提取在所述主題詞匯表中定義的第一術(shù)語的定義; 其中通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分包括: 創(chuàng)建第一陳述,其中所述第一陳述包含所述第一術(shù)語并且基于從所述主題詞匯表提取的所述第一術(shù)語的定義; 通過在所述第一陳述中用第二術(shù)語替代所述第一術(shù)語創(chuàng)建修改的第一陳述,其中在所述主題詞匯表中定義所述第二術(shù)語; 在語料庫中搜索所述修改的第一陳述是準(zhǔn)確的證據(jù);以及 基于所述修改的第一陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定總置信得分;以及 其中基于所述置信得分建立主題敘詞表包括: 如果所述總置信得分大于第一閾值,則將所述第一術(shù)語和所述第二術(shù)語標(biāo)記為同義Τ.κ| ο10.如權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義包括: 從所述主題詞匯表提取在所述主題詞匯表中定義的第一術(shù)語的定義; 從所述主題詞匯表提取在所述主題詞匯表中定義的第二術(shù)語的定義; 其中通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分包括: 創(chuàng)建第一陳述,其中所述第一陳述包含所述第一術(shù)語并且基于從所述主題詞匯表提取的所述第一術(shù)語的定義; 通過在所述第一陳述中用所述第二術(shù)語替代所述第一術(shù)語創(chuàng)建修改的第一陳述; 在語料庫中搜索所述修改的第一陳述是準(zhǔn)確的證據(jù); 基于所述修改的第一陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定第一置信得分; 創(chuàng)建第二陳述,其中所述第二陳述包含所述第二術(shù)語并且基于從所述主題詞匯表提取的所述第二術(shù)語的定義; 通過在所述第二陳述中用所述第一術(shù)語替代所述第二術(shù)語創(chuàng)建修改的第二陳述; 在語料庫中搜索所述修改的第二陳述是準(zhǔn)確的證據(jù); 基于所述修改的第二陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定第二置信得分; 基于所述第一置信得分和所述第二置信得分計(jì)算總置信得分;以及 其中基于所述置信得分建立主題敘詞表包括: 如果所述總置信得分大于第一閾值,則將所述第一術(shù)語和所述第二術(shù)語標(biāo)記為同義Τ.κ| ο11.如權(quán)利要求9所述的計(jì)算機(jī)程序產(chǎn)品,其還包括: 如果所述總置信得分大于第二閾值,則選擇所述第一術(shù)語和所述第二術(shù)語作為可能的同義詞以便由人類主題專家復(fù)查,其中所述第二閾值小于所述第一閾值。12.如權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述自然語言處理包括段落術(shù)語匹配、詞匯匹配和句法匹配中的至少一種。13.如權(quán)利要求9所述的計(jì)算機(jī)程序產(chǎn)品,其中使用機(jī)器學(xué)習(xí)確定所述第一閾值。14.如權(quán)利要求13所述的計(jì)算機(jī)程序產(chǎn)品,其中所述機(jī)器學(xué)習(xí)包括計(jì)算多個已知的同義詞對的每一個的總置信得分。15.—種計(jì)算機(jī)系統(tǒng),其包括: 至少一個處理器; 耦合到所述至少一個處理器的存儲器; 同義詞創(chuàng)建機(jī)構(gòu),其由所述至少一個處理器中的一個或多個執(zhí)行以執(zhí)行方法,所述方法包括: 從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義; 通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分,其中每個置信得分表示在所述主題詞匯表中定義的兩個術(shù)語是同義詞的概率; 基于所述置信得分建立主題敘詞表。16.如權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),其中從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義包括: 從所述主題詞匯表提取在所述主題詞匯表中定義的第一術(shù)語的定義; 其中通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分包括: 創(chuàng)建第一陳述,其中所述第一陳述包含所述第一術(shù)語并且基于從所述主題詞匯表提取的所述第一術(shù)語的定義; 通過在所述第一陳述中用第二術(shù)語替代所述第一術(shù)語創(chuàng)建修改的第一陳述,其中在所述主題詞匯表中定義所述第二術(shù)語; 在語料庫中搜索所述修改的第一陳述是準(zhǔn)確的證據(jù);以及 基于所述修改的第一陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定總置信得分;以及 其中基于所述置信得分建立主題敘詞表包括: 如果所述總置信得分大于第一閾值,則將所述第一術(shù)語和所述第二術(shù)語標(biāo)記為同義Τ.κ| ο17.如權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),其中從主題詞匯表提取在所述主題詞匯表中定義的術(shù)語的定義包括: 從所述主題詞匯表提取在所述主題詞匯表中定義的第一術(shù)語的定義; 從所述主題詞匯表提取在所述主題詞匯表中定義的第二術(shù)語的定義; 其中通過將自然語言處理應(yīng)用于從所述主題詞匯表提取的定義確定多個置信得分包括: 創(chuàng)建第一陳述,其中所述第一陳述包含所述第一術(shù)語并且基于從所述主題詞匯表提取的所述第一術(shù)語的定義; 通過在所述第一陳述中用所述第二術(shù)語替代所述第一術(shù)語創(chuàng)建修改的第一陳述; 在語料庫中搜索所述修改的第一陳述是準(zhǔn)確的證據(jù); 基于所述修改的第一陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定第一置信得分; 創(chuàng)建第二陳述,其中所述第二陳述包含所述第二術(shù)語并且基于從所述主題詞匯表提取的所述第二術(shù)語的定義; 通過在所述第二陳述中用所述第一術(shù)語替代所述第二術(shù)語創(chuàng)建修改的第二陳述; 在語料庫中搜索所述修改的第二陳述是準(zhǔn)確的證據(jù); 基于所述修改的第二陳述是準(zhǔn)確的所述語料庫中的證據(jù)確定第二置信得分; 基于所述第一置信得分和所述第二置信得分計(jì)算總置信得分;以及 其中基于所述置信得分建立主題敘詞表包括: 如果所述總置信得分大于第一閾值,則將所述第一術(shù)語和所述第二術(shù)語標(biāo)記為同義Τ.κ| ο18.如權(quán)利要求16所述的計(jì)算機(jī)系統(tǒng),其還包括: 如果所述總置信得分大于第二閾值,則選擇所述第一術(shù)語和所述第二術(shù)語作為可能的同義詞以便由人類主題專家復(fù)查,其中所述第二閾值小于所述第一閾值。19.如權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),其中所述自然語言處理包括段落術(shù)語匹配、詞匯匹配和句法匹配中的至少一種。20.如權(quán)利要求16所述的計(jì)算機(jī)系統(tǒng),其中使用機(jī)器學(xué)習(xí)確定所述第一閾值。
【專利摘要】本發(fā)明提供用于從由主題詞匯表提取的定義創(chuàng)建主題同義詞的方法、裝置和系統(tǒng),包括計(jì)算機(jī)程序產(chǎn)品。通過將自然語言處理(例如,段落術(shù)語匹配、詞匯匹配和句法匹配)應(yīng)用于提取定義確定均表示在主題詞匯表中定義的兩個術(shù)語是同義詞的概率的置信得分?;谥眯诺梅纸⒅黝}敘詞表。在一個實(shí)施例中,基于第一術(shù)語的提取定義創(chuàng)建包含第一術(shù)語的陳述,通過在陳述中用第二術(shù)語代替第一術(shù)語創(chuàng)建修改陳述,搜索語料庫,并且基于修改陳述是準(zhǔn)確的語料庫中的證據(jù)確定置信得分。如果置信得分大于閾值則將第一和第二術(shù)語標(biāo)記為同義詞。
【IPC分類】G06F17/30
【公開號】CN105531703
【申請?zhí)枴緾N201480050382
【發(fā)明人】S.N.杰勒德, M.G.梅格里安
【申請人】國際商業(yè)機(jī)器公司
【公開日】2016年4月27日
【申請日】2014年9月12日
【公告號】US9311300, US20150081276, US20160170965, WO2015035932A1