一種網(wǎng)絡(luò)評論的標(biāo)簽提取方法和裝置的制造方法
【專利摘要】本申請公開的網(wǎng)絡(luò)評論的標(biāo)簽提取方法和裝置,對評論短句進(jìn)行評論對象和情感類別的標(biāo)注。然后按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面情感的評論短句數(shù)量,以及情感類別為負(fù)面情感的評論短句數(shù)量,并將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取。與僅將評論短句進(jìn)行語義去重提取標(biāo)簽的方法相比,標(biāo)簽中含有評論短句評述的對象,以及對評述對象的正面和負(fù)面評論條數(shù)信息,可以將商品的某一方面信息以更加簡潔的標(biāo)簽形式進(jìn)行展示,改善用戶的購物體驗(yàn)。
【專利說明】
-種網(wǎng)絡(luò)評論的標(biāo)簽提取方法和裝置
技術(shù)領(lǐng)域
[0001] 本申請?jiān)O(shè)及數(shù)據(jù)處理領(lǐng)域,更具體地說,設(shè)及一種網(wǎng)絡(luò)評論的標(biāo)簽提取方法和裝 置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)和電子商務(wù)的快速發(fā)展,傳統(tǒng)企業(yè)的業(yè)務(wù)流程和消費(fèi)者的行為模式都 產(chǎn)生了巨大的變化。在線購物的體驗(yàn)不斷改善,使得在線購物越來越流行,幾乎所有的電商 都鼓勵或者邀請消費(fèi)者為他們所購買的商品或服務(wù)進(jìn)行評價(jià),越來越多的消費(fèi)者也愿意在 各個電商平臺上分享自己的購物經(jīng)驗(yàn)和所購商品的質(zhì)量好壞。因此,網(wǎng)絡(luò)上各個產(chǎn)品的評 論數(shù)飛快地增長,對于具體的商品,它的評論數(shù)有可能成千上萬。W京東商城的Iphone 5s 手機(jī)為例,截止2015年12月,其用戶評論已接近14萬條。運(yùn)些大量的評論一方面是大數(shù)據(jù)時 代各個電商平臺珍惜的資源,另一方面也給企業(yè)和消費(fèi)者帶來了很多不便。海量的評論造 成消費(fèi)者閱讀困難,很少有消費(fèi)者為了決定購買一個商品而瀏覽成千上萬條評論,海量評 論的價(jià)值無法直觀體現(xiàn)。
[0003] 如何從海量的評論中提取出簡短有效的描述,并讓用戶在最短的時間內(nèi)了解商品 的重要信息,傳統(tǒng)的方式是采用將冗長的評論提煉成評論短語,然后進(jìn)行語義去重提取的 方法。其展示結(jié)果如:淘寶的"大家都寫到",大眾點(diǎn)評的"大家認(rèn)為",京東商城的"買家印 象"等。運(yùn)種語義去重提取的方法存在的缺陷是,同類商品提取的標(biāo)簽信息雷同,進(jìn)而影響 用戶的消費(fèi)體驗(yàn)。
【發(fā)明內(nèi)容】
[0004] 本申請欲解決的問題是現(xiàn)有網(wǎng)絡(luò)評論的標(biāo)簽提取方法,采用語義去重的提取方 式,造成同類商品提取的描述雷同,進(jìn)而影響用戶消費(fèi)體驗(yàn)的問題。
[0005] 為了解決上述問題,現(xiàn)提出的方案如下:
[0006] -種網(wǎng)絡(luò)評論的標(biāo)簽提取方法,基于實(shí)體知識庫,所述實(shí)體知識庫包含多個領(lǐng)域 的屬性詞,所述屬性詞用于對評論短句的評論對象進(jìn)行標(biāo)注,所述方法包括:
[0007] 獲取網(wǎng)絡(luò)評論信息;
[000引 W標(biāo)點(diǎn)符號為分隔符對所述網(wǎng)絡(luò)評論信息進(jìn)行分割,得到若干評論短句;
[0009] 標(biāo)注每個所述評論短句的情感類別,當(dāng)所述評論短句的情感類別標(biāo)注為中立情感 時,結(jié)束所述評論短句的標(biāo)注,當(dāng)所述評論短句的情感類別標(biāo)注為正面情感或負(fù)面情感時, 標(biāo)注所述評論短句的評論對象;
[0010] 按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面情感的評論短句數(shù) 量,W及情感類別為負(fù)面情感的評論短句數(shù)量;
[0011] 將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取,所述統(tǒng)計(jì)結(jié)果包括評論對象,W及所述評論對象 對應(yīng)的正面情感的評論短句數(shù)量和負(fù)面情感的評論短句數(shù)量。
[0012] 優(yōu)選的,所述標(biāo)注所述評論短句的評論對象包括:
[0013] 對所述評論短句進(jìn)行分詞w及詞性標(biāo)注;
[0014] 判斷詞性標(biāo)注結(jié)果為名詞的詞語是否存在所述實(shí)體知識庫的屬性詞中;
[0015] 若存在,則將包含所述詞語的評論短句的評論對象標(biāo)注為所述詞語,若不存在,貝U 分別計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度;
[0016] 將包含所述詞語的評論短句的評論對象標(biāo)注為與所述詞語相似度最大的屬性詞。
[0017] 優(yōu)選的,所述分別計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度前,還 包括:
[0018] 判斷所述網(wǎng)絡(luò)評論信息中所述詞語的重復(fù)次數(shù)是否超過預(yù)設(shè)的詞頻闊值,若未超 過,則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo)注。
[0019] 優(yōu)選的,所述分別計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度后,還 包括:
[0020] 判斷所述詞語和各個屬性詞的最大相似度值是否超過預(yù)設(shè)的相似度闊值,若未超 過,則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo)注。
[0021 ]優(yōu)選的,所述標(biāo)注每個所述評論短句的情感類別包括:
[0022] 對所述評論短句進(jìn)行分詞,得到若干詞語;
[0023] 判斷所述若干詞語是否存在情感詞典中,若都不存在,則結(jié)束所述評論短句的標(biāo) 注,若有部分不存在,則在存在詞語的鄰近幾個字中查詢否定詞;
[0024] 若查詢到否定詞,則將所述詞語的情感含義改為原來情感含義的反義;
[0025] 比較所述評論短句中具有正面情感含義詞語的數(shù)量與具有負(fù)面情感含義詞語的 數(shù)量兩者之間的大小,若具有正面情感含義詞語的數(shù)量大,則標(biāo)注所述評論短句的情感類 別為正面情感,若具有負(fù)面情感含義詞語的數(shù)量大,則標(biāo)注所述評論短句的情感類別為負(fù) 面情感,若兩者相等則標(biāo)注所述評論短句的情感類別為中立情感。
[0026] -種網(wǎng)絡(luò)評論的標(biāo)簽提取裝置,基于實(shí)體知識庫,所述實(shí)體知識庫包含多個領(lǐng)域 的屬性詞,所述屬性詞用于對評論短句的評論對象進(jìn)行標(biāo)注,所述裝置包括:
[0027] 評論獲取單元,用于獲取網(wǎng)絡(luò)評論信息;
[0028] 評論分割單元,用于W標(biāo)點(diǎn)符號為分隔符對所述網(wǎng)絡(luò)評論信息進(jìn)行分割,得到若 干評論短句;
[0029] 情感標(biāo)注單元,用于標(biāo)注每個所述評論短句的情感類別,當(dāng)所述評論短句的情感 類別標(biāo)注為中立情感時,結(jié)束所述評論短句的標(biāo)注;
[0030] 評論對象標(biāo)注單元,用于當(dāng)所述評論短句的情感類別標(biāo)注為正面情感或負(fù)面情感 時,標(biāo)注所述評論短句的評論對象;
[0031] 統(tǒng)計(jì)單元,用于按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面情 感的評論短句數(shù)量,W及情感類別為負(fù)面情感的評論短句數(shù)量;
[0032] 標(biāo)簽提取單元,將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取,所述統(tǒng)計(jì)結(jié)果包括評論對象,W及 所述評論對象對應(yīng)的正面情感的評論短句數(shù)量和負(fù)面情感的評論短句數(shù)量。
[0033] 優(yōu)選的,所述評論對象標(biāo)注單元,包括:
[0034] 詞性標(biāo)注子單元,用于對所述評論短句進(jìn)行分詞W及詞性標(biāo)注;
[0035] 第一判斷子單元,用于判斷詞性標(biāo)注結(jié)果為名詞的詞語是否存在所述實(shí)體知識庫 的屬性詞中,若存在,則將包含所述詞語的評論短句的評論對象標(biāo)注為所述詞語,若不存 在,則分別計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度;
[0036] 評論對象標(biāo)注子單元,用于將包含所述詞語的評論短句的評論對象標(biāo)注為與所述 詞語相似度最大的屬性詞。
[0037] 優(yōu)選的,所述評論對象標(biāo)注單元,還包括:
[0038] 第二判斷子單元,用于判斷所述網(wǎng)絡(luò)評論信息中所述詞語的重復(fù)次數(shù)是否超過預(yù) 設(shè)的詞頻闊值,若未超過,則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo) 注。
[0039] 優(yōu)選的,所述評論對象標(biāo)注單元,還包括:
[0040] 第Ξ判斷子單元,用于判斷所述詞語和各個屬性詞的最大相似度值是否超過預(yù)設(shè) 的相似度闊值,若未超過,則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo) 注。
[0041 ]優(yōu)選的,所述情感標(biāo)注單元,包括:
[0042] 分詞單元,用于對所述評論短句進(jìn)行分詞,得到若干詞語;
[0043] 第四判斷單元,用于判斷所述若干詞語是否存在情感詞典中,若是都不存在,則結(jié) 束所述評論短句的標(biāo)注,若有部分不存在,則在存在詞語的鄰近幾個字中查詢否定詞,若查 詢到否定詞,則將所述詞語的情感含義改為原來情感含義的反義;
[0044] 情感標(biāo)注子單元,比較所述評論短句中具有正面情感含義詞語的數(shù)量與具有負(fù)面 情感含義詞語的數(shù)量兩者之間的大小,若具有正面情感含義詞語的數(shù)量大則標(biāo)注所述評論 短句的情感類別為正面情感,若具有負(fù)面情感含義詞語的數(shù)量大則標(biāo)注所述評論短句的情 感類別為負(fù)面情感,若兩者相等則標(biāo)注所述評論短句的情感類別為中立情感。
[0045] 從上述的技術(shù)方案可W看出,本申請公開的網(wǎng)絡(luò)評論的標(biāo)簽提取方法,基于實(shí)體 知識庫,所述實(shí)體知識庫包含多個領(lǐng)域的屬性詞,所述屬性詞用于對評論短句的評論對象 進(jìn)行標(biāo)注,方法包括對評論短句進(jìn)行評論對象和情感類別的標(biāo)注。然后按照評論對象進(jìn)行 統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面情感的評論短句數(shù)量,W及情感類別為負(fù)面情 感的評論短句數(shù)量,并將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取。與僅將評論短句進(jìn)行語義去重提取 標(biāo)簽的方法相比,標(biāo)簽中含有評論短句評述的對象,W及對評述對象的正面和負(fù)面評論條 數(shù)信息,可W將商品的某一方面信息W更加簡潔的標(biāo)簽形式進(jìn)行展示,改善用戶的購物體 驗(yàn)。
【附圖說明】
[0046] 為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 申請的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W 根據(jù)運(yùn)些附圖獲得其他的附圖。
[0047] 圖1為本實(shí)施例公開的一種網(wǎng)絡(luò)評論的標(biāo)簽提取方法示意圖;
[0048] 圖2為本實(shí)施例公開的一種標(biāo)注評論短句的評論對象的方法示意圖;
[0049] 圖3為本實(shí)施例公開的一種對評論短句進(jìn)行情感類別標(biāo)注的方法;
[0050] 圖4為本實(shí)施例公開的一種網(wǎng)絡(luò)評論的標(biāo)簽提取裝置示意圖;
[0051 ]圖5為本實(shí)施例公開的一種評論對象標(biāo)注單元示意圖;
[0052] 圖6為本實(shí)施例公開的一種情感標(biāo)注單元的示意圖;
[0053] 圖7為本實(shí)施例公開的一種網(wǎng)絡(luò)評論標(biāo)簽提取后的展示示意圖。
【具體實(shí)施方式】
[0054] 下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;?本申請中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實(shí)施例,都屬于本申請保護(hù)的范圍。
[0055] 本實(shí)施例公開網(wǎng)絡(luò)評論的標(biāo)簽提取方法,基于一個實(shí)體知識庫,實(shí)體知識庫包括 多個領(lǐng)域的屬性詞,例如手機(jī)領(lǐng)域?qū)?yīng)的屬性詞外觀、續(xù)航、處理器和系統(tǒng)等等。屬性詞用 于對評論短句的評論對象進(jìn)行標(biāo)注,例如,利用屬性詞外觀對評論短句"外觀很漂亮"的評 論對象標(biāo)注為外觀。由于網(wǎng)絡(luò)評論語料的特殊性,本申請實(shí)體知識庫中不同領(lǐng)域的屬性詞 層次結(jié)構(gòu)不同,有的屬性詞層次較多,如酒店領(lǐng)域的大類屬性詞有食物、環(huán)境、價(jià)格、服務(wù)、 酒水、路程,食物的下位詞屬性詞有原料,菜肴等,原料的下位詞屬性詞有肉類,蔬菜等,肉 類的下位詞屬性詞有家禽,家畜,野生等等;然而有的屬性詞可能沒有下位詞屬性詞,如價(jià) 格。
[0056] 由于網(wǎng)絡(luò)評論語料的特殊性,實(shí)體知識庫的建立主要W網(wǎng)絡(luò)評論語料為主對實(shí)體 知識庫進(jìn)行建立。首先獲取各大電商平臺中的網(wǎng)絡(luò)評論信息,例如淘寶、京東等電商平臺; 然后對評論信息處理,得到評論短句,再進(jìn)行分詞和詞性標(biāo)注的操作,進(jìn)而提取所有名詞。 將名詞中的低頻詞和在商品中極少出現(xiàn)的詞過濾后,作為不同領(lǐng)域的各個層次的屬性詞, 用于建立實(shí)體知識庫。
[0057] 圖1為本實(shí)施例公開的一種網(wǎng)絡(luò)評論的標(biāo)簽提取方法示意圖
[0058] 參見圖1,網(wǎng)絡(luò)評論的標(biāo)簽提取方法,基于實(shí)體知識庫,所述實(shí)體知識庫包含多個 領(lǐng)域的屬性詞,所述屬性詞用于對評論短句的評論對象進(jìn)行標(biāo)注,方法包括:
[0059] 步驟S11:獲取網(wǎng)絡(luò)評論信息。
[0060] 例如:獲取淘寶、京東、去哪兒、攜程、大眾點(diǎn)評等電商平臺中某家網(wǎng)店中某個商品 的網(wǎng)絡(luò)評論信息。
[0061] 步驟S12:W標(biāo)點(diǎn)符號為分隔符對所述網(wǎng)絡(luò)評論信息進(jìn)行分割,得到若干評論短 句。
[0062] 執(zhí)行步驟S12中對網(wǎng)絡(luò)評論信息進(jìn)行預(yù)處理,一條網(wǎng)絡(luò)評論信息可能從多個評論 角度對商品進(jìn)行評論,因此按標(biāo)點(diǎn)V'V'等符號為分隔符,將冗長的網(wǎng)絡(luò)評論信息 分割為評論短句。
[0063] 步驟S13:標(biāo)注每個所述評論短句的情感類別,當(dāng)所述評論短句的情感類別標(biāo)注為 中立情感時,結(jié)束所述評論短句的標(biāo)注,當(dāng)所述評論短句的情感類別標(biāo)注為正面情感或負(fù) 面情感時,執(zhí)行步驟14。
[0064] 執(zhí)行步驟S13中的情感類別識別,從一條評論短句的描述信息可W獲取用戶對商 品的喜歡、不喜歡或中立的情感。標(biāo)注評論短句的情感類別,便于用戶在購物時對商品的某 個屬性更加了解。而對于表達(dá)中立情感的評論短句,對于用戶參考價(jià)值不大,將不進(jìn)行標(biāo)簽 提取。
[0065] 步驟S14:標(biāo)注所述評論短句的評論對象。
[0066] 執(zhí)行步驟S14中評述短句的評述對象標(biāo)注,標(biāo)注評論對象就是要識別評論短句中 的評價(jià)對象,即評論者對評價(jià)對象的哪個角度或方面做出評論。例如"運(yùn)家店的環(huán)境很好" 是從飯店的環(huán)境進(jìn)行評價(jià),識別出評論短句中的評價(jià)角度環(huán)境,標(biāo)注評價(jià)短句"運(yùn)家店的環(huán) 境很好"的評論對象環(huán)境。
[0067] 步驟S15:按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面情感的評 論短句數(shù)量,W及情感類別為負(fù)面情感的評論短句數(shù)量。
[0068] 執(zhí)行步驟S15中的統(tǒng)計(jì)操作,對評論短句進(jìn)行情感類別標(biāo)注和評價(jià)對象標(biāo)注完成 W后,按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)各個評論對象中表達(dá)正面情感的評論短句的數(shù)量和表 達(dá)負(fù)面情感的評論短句的數(shù)量。
[0069] 步驟S16:將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取,所述統(tǒng)計(jì)結(jié)果包括評論對象,W及所述 評論對象對應(yīng)的正面情感的評論短句數(shù)量和負(fù)面情感的評論短句數(shù)量。
[0070] 執(zhí)行步驟S16中的標(biāo)簽提取,例如:標(biāo)簽的形式"環(huán)境(154,145)",即代表網(wǎng)絡(luò)評論 中有154條表達(dá)正面情感的評論短句,145條帶有負(fù)面情感的評論短句。
[0071] 本實(shí)施例公開的網(wǎng)絡(luò)評論的標(biāo)簽提取方法,對評論短句進(jìn)行評論對象和情感類別 的標(biāo)注,W及評論短句所表達(dá)的情感類別。然后按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象 中情感類別為正面情感的評論短句數(shù)量,W及情感類別為負(fù)面情感的評論短句數(shù)量,并將 統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取。與僅將評論短句進(jìn)行語義去重提取標(biāo)簽的方法相比,標(biāo)簽中 含有評論短句評述的對象,W及對評述對象的正面和負(fù)面評論條數(shù)信息,可W將商品的某 一方面信息W更加簡潔的標(biāo)簽形式進(jìn)行展示,改善用戶的購物體驗(yàn)。
[0072] 圖2為本實(shí)施例公開的一種標(biāo)注評論短句的評論對象的方法示意圖
[0073] 上述執(zhí)行步驟S14標(biāo)注評論短句的評論對象時,為了提高評論短句標(biāo)注的覆蓋率, 對于評論短句中不存在實(shí)體知識庫的屬性詞,使用語義相似度的方法進(jìn)行評論短句的評論 對象標(biāo)注。參見圖2,該方法包括:
[0074] 步驟S21:對所述評論短句進(jìn)行分詞W及詞性標(biāo)注??蒞采用漢語詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology.Chinese Lexical Analysis System),對 評論短句進(jìn)行分詞W及詞性標(biāo)注,即將評論短句分成若干詞語,并對詞語的詞性進(jìn)行標(biāo)注, 標(biāo)注為名詞、動詞等。
[0075] 步驟S22:判斷詞性標(biāo)注結(jié)果為名詞的詞語是否存在所述實(shí)體知識庫的屬性詞中, 若存在,執(zhí)行步驟S23,若不存在,執(zhí)行步驟S24。
[0076] 步驟S23:將包含所述詞語的評論短句的評論對象標(biāo)注為所述詞語。
[0077] 步驟S24:分別計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度。word2vec 是一個將詞語轉(zhuǎn)換成向量形式的工具,計(jì)算出向量空間上的相似度,來表示詞語語義上的 相似度。若詞語不存在知識庫的屬性詞中,則利用word2vec工具計(jì)算詞語與實(shí)體知識庫中 各個屬性詞的相似度。然后找出與詞語相似度最大的屬性詞。
[0078] 步驟S25:將包含所述詞語的評論短句的評論對象標(biāo)注為與所述詞語相似度最大 的屬性詞。
[0079] 為了提高評論短句的評論對象標(biāo)注的準(zhǔn)確率,可W通過設(shè)置詞頻闊值和/或相似 度闊值的方式操作。若詞語不存在知識庫的屬性詞中,在步驟24之前判斷詞語在網(wǎng)絡(luò)評論 信息中重復(fù)次數(shù)是否超過預(yù)設(shè)的詞頻闊值,若未超過,則結(jié)束詞語對應(yīng)評論短句的標(biāo)注,若 超過,則執(zhí)行步驟24。步驟24之后,判斷最大相似度值是否超過預(yù)設(shè)的相似度闊值,若未超 過,則結(jié)束詞語對應(yīng)評論短句的標(biāo)注,若超過,則執(zhí)行步驟25。
[0080] 為了驗(yàn)證相似度闊值和頻率闊值對評論短句的評論對象標(biāo)注的影響,從不包含實(shí) 體知識庫的屬性詞的語料中隨機(jī)取500句評論短句,采用不同的相似度闊值和頻率闊值進(jìn) 行評論對象標(biāo)注,實(shí)驗(yàn)結(jié)果如下表所示:
[0081]
[0083] ~圖3為本實(shí)施例公開的一種對評論短句進(jìn)行情感類別標(biāo)注的方·法 ' '
[0084] 參見圖3,標(biāo)注每個所述評論短句的情感類別方法包括:
[0085] 步驟S31:對所述評論短句進(jìn)行分詞,得到若干詞語。采用ICTCLAS對評論短句進(jìn)行 分詞。
[0086] 步驟S32:判斷所述若干詞語是否存在情感詞典中,若是都不存在,則結(jié)束所述評 論短句的標(biāo)注,若部分不存在,執(zhí)行步驟33。
[0087] 目前比較常用的情感詞典為臺灣大學(xué)的中文情感極性詞典,大連理工大學(xué)的中文 情感詞匯本體庫,W及知網(wǎng)情感分析用詞語集等。一條評論短句包括的若干詞語,有可能都 不存在情感詞典中,也有可能都存在情感詞典中,若都不存在將無法進(jìn)行情感類別標(biāo)注,進(jìn) 而評論對象的標(biāo)注也無意義,所W將對應(yīng)評論短句的標(biāo)注。而只要評論短句中有一個詞出 現(xiàn)在情感詞典中,都可W對評論短句表達(dá)的情感類別進(jìn)行判斷。
[0088] 步驟S33:在存在詞語的鄰近幾個字中查詢否定詞。
[0089] 步驟S34:若查詢到否定詞,則將所述詞語的情感含義改為原來情感含義的反義。 如"運(yùn)個手機(jī)不好看"運(yùn)句評論短句在情感詞"好看"前找到否定詞"不",則將該情感詞的極 性取反變成負(fù)面情感詞。
[0090] 步驟S35:比較所述評論短句中具有正面情感含義詞語的數(shù)量與具有負(fù)面情感含 義詞語的數(shù)量兩者之間的大小,若前者大則標(biāo)注所述評論短句的情感類別為正面情感,若 后者大則標(biāo)注所述評論短句的情感類別為負(fù)面情感,若兩者相等則標(biāo)注所述評論短句的情 感類別為中立情感。
[0091 ]圖4為本實(shí)施例公開的一種網(wǎng)絡(luò)評論的標(biāo)簽提取裝置示意圖
[0092] 參見圖4所示,本實(shí)施例公開網(wǎng)絡(luò)評論的標(biāo)簽提取裝置包括:
[0093] 評論獲取單元11,用于獲取網(wǎng)絡(luò)評論信息。
[0094] 評論分割單元12,用于W標(biāo)點(diǎn)符號為分隔符對所述網(wǎng)絡(luò)評論信息進(jìn)行分割,得到 若干評論短句。
[00M]情感標(biāo)注單元13,用于標(biāo)注每個所述評論短句的情感類別,當(dāng)所述評論短句的情 感類別標(biāo)注為中立情感時,結(jié)束所述評論短句的標(biāo)注。
[0096] 評論對象標(biāo)注單元14,用于當(dāng)所述評論短句的情感類別標(biāo)注為正面情感或負(fù)面情 感時,標(biāo)注所述評論短句的評論對象。
[0097] 統(tǒng)計(jì)單元15,用于按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面 情感的評論短句數(shù)量,W及情感類別為負(fù)面情感的評論短句數(shù)量。
[0098] 標(biāo)簽提取單元16,將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取,所述統(tǒng)計(jì)結(jié)果包括評論對象,W 及所述評論對象對應(yīng)的正面情感的評論短句數(shù)量和負(fù)面情感的評論短句數(shù)量。
[0099] 圖5為本實(shí)施例公開的一種評論對象標(biāo)注單元示意圖
[0100] 參見圖5所示,評論對象標(biāo)注單元14包括:
[0101 ] 詞性標(biāo)注子單元141,用于對所述評論短句進(jìn)行分詞W及詞性標(biāo)注。
[0102] 第一判斷子單元142,用于判斷詞性標(biāo)注結(jié)果為名詞的詞語是否存在所述實(shí)體知 識庫的屬性詞中,若存在,則將包含所述詞語的評論短句的評論對象標(biāo)注為所述詞語,若不 存在,則分別計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度。
[0103] 評論對象標(biāo)注子單元143,用于將包含所述詞語的評論短句的評論對象標(biāo)注為與 所述詞語相似度最大的屬性詞。
[0104] 為了提高評論短句的評論對象標(biāo)注的準(zhǔn)確率,評論對象標(biāo)注單元還可W包括第二 判斷子單元和/或第Ξ判斷子單元。第二判斷子單元,用于判斷所述網(wǎng)絡(luò)評論信息中所述詞 語的重復(fù)次數(shù)是否超過預(yù)設(shè)的詞頻闊值,若未超過,則結(jié)束所述評論短句的標(biāo)注,若超過, 則繼續(xù)所述評論短句的標(biāo)注。第Ξ判斷子單元,用于判斷所述詞語和各個屬性詞的最大相 似度值是否超過預(yù)設(shè)的相似度闊值,若未超過,則結(jié)束所述評論短句的標(biāo)注,若超過,則繼 續(xù)所述評論短句的標(biāo)注。
[0105] 圖6為本實(shí)施例公開的一種情感標(biāo)注單元的示意圖
[0106] 參見圖6所示,情感標(biāo)注單元包括:
[0107] 分詞單元131,用于對所述評論短句進(jìn)行分詞,得到若干詞語。
[0108] 第四判斷單元132,用于判斷所述若干詞語是否存在情感詞典中,若是都不存在, 則結(jié)束所述評論短句的標(biāo)注,若有部分不存在,則在存在詞語的鄰近幾個字中查詢否定詞, 若查詢到否定詞,則將所述詞語的情感含義改為原來情感含義的反義。
[0109] 情感標(biāo)注子單元133,比較所述評論短句中具有正面情感含義詞語的數(shù)量與具有 負(fù)面情感含義詞語的數(shù)量兩者之間的大小,若前者大則標(biāo)注所述評論短句的情感類別為正 面情感,若后者大則標(biāo)注所述評論短句的情感類別為負(fù)面情感,若兩者相等則標(biāo)注所述評 論短句的情感類別為中立情感。
[0110] 通過本申請公開的網(wǎng)絡(luò)評論標(biāo)簽提取方法對網(wǎng)絡(luò)評論進(jìn)行標(biāo)簽提取后,采用分層 展示的方式,參見圖7所示,頁面左側(cè)為標(biāo)簽區(qū)域1,右側(cè)為評論區(qū)域2。標(biāo)簽區(qū)域在頁面打開 的時候顯示第一層屬性詞標(biāo)簽"食物(121.111),環(huán)境(245.152),……",用戶點(diǎn)擊第一層屬 性詞標(biāo)簽"食物(121.111Γ,顯示食物的下一層屬性詞,點(diǎn)擊其中"面食巧.4)",則繼續(xù)顯示 的下一層屬性詞,直達(dá)最后實(shí)體知識庫設(shè)計(jì)的最后一層屬性詞。屬性詞標(biāo)簽含有用戶對于 商品的正面和負(fù)面評價(jià)數(shù)量,評論區(qū)域顯示與點(diǎn)擊屬性對應(yīng)的評論,其中正面評價(jià)和負(fù)面 評價(jià)用不同的顏色標(biāo)出,便于用戶瀏覽。
[0111] 對于裝置實(shí)施例而言,由于其基本相應(yīng)于方法實(shí)施例,所W相關(guān)之處參見方法實(shí) 施例的部分說明即可。W上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件 說明的單元可w是或者也可w不是物理上分開的,作為單元顯示的部件可w是或者也可w 不是物理單元,即可W位于一個地方,或者也可W分布到多個網(wǎng)絡(luò)單元上。可W根據(jù)實(shí)際的 需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不 付出創(chuàng)造性勞動的情況下,即可W理解并實(shí)施。
[0112] 在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另 一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示運(yùn)些實(shí)體或操作之間存在任何運(yùn)種實(shí)際 的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排他性的包 含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括 沒有明確列出的其他要素,或者是還包括為運(yùn)種過程、方法、物品或者設(shè)備所固有的要素。 在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排除在包括所述要素 的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0113] 本說明書中各個實(shí)施例采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他 實(shí)施例的不同之處,各個實(shí)施例之間相同相似部分互相參見即可。
[0114] 對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請。 對運(yùn)些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的 一般原理可W在不脫離本申請的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請 將不會被限制于本文所示的運(yùn)些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一 致的最寬的范圍。
【主權(quán)項(xiàng)】
1. 一種網(wǎng)絡(luò)評論的標(biāo)簽提取方法,其特征在于,基于實(shí)體知識庫,所述實(shí)體知識庫包含 多個領(lǐng)域的屬性詞,所述屬性詞用于對評論短句的評論對象進(jìn)行標(biāo)注,所述方法包括: 獲取網(wǎng)絡(luò)評論信息; 以標(biāo)點(diǎn)符號為分隔符對所述網(wǎng)絡(luò)評論信息進(jìn)行分割,得到若干評論短句; 標(biāo)注每個所述評論短句的情感類別,當(dāng)所述評論短句的情感類別標(biāo)注為中立情感時, 結(jié)束所述評論短句的標(biāo)注,當(dāng)所述評論短句的情感類別標(biāo)注為正面情感或負(fù)面情感時,標(biāo) 注所述評論短句的評論對象; 按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面情感的評論短句數(shù)量, 以及情感類別為負(fù)面情感的評論短句數(shù)量; 將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取,所述統(tǒng)計(jì)結(jié)果包括評論對象,以及所述評論對象對應(yīng) 的正面情感的評論短句數(shù)量和負(fù)面情感的評論短句數(shù)量。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述標(biāo)注所述評論短句的評論對象包括: 對所述評論短句進(jìn)行分詞以及詞性標(biāo)注; 判斷詞性標(biāo)注結(jié)果為名詞的詞語是否存在所述實(shí)體知識庫的屬性詞中; 若存在,則將包含所述詞語的評論短句的評論對象標(biāo)注為所述詞語,若不存在,則分別 計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度; 將包含所述詞語的評論短句的評論對象標(biāo)注為與所述詞語相似度最大的屬性詞。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分別計(jì)算所述詞語與所述實(shí)體知識庫 中各個屬性詞的相似度前,還包括: 判斷所述網(wǎng)絡(luò)評論信息中所述詞語的重復(fù)次數(shù)是否超過預(yù)設(shè)的詞頻閾值,若未超過, 則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo)注。4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分別計(jì)算所述詞語與所述實(shí)體知識庫 中各個屬性詞的相似度后,還包括: 判斷所述詞語和各個屬性詞的最大相似度值是否超過預(yù)設(shè)的相似度閾值,若未超過, 則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo)注。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述標(biāo)注每個所述評論短句的情感類別包 括: 對所述評論短句進(jìn)行分詞,得到若干詞語; 判斷所述若干詞語是否存在情感詞典中,若都不存在,則結(jié)束所述評論短句的標(biāo)注,若 有部分不存在,則在存在詞語的鄰近幾個字中查詢否定詞; 若查詢到否定詞,則將所述詞語的情感含義改為原來情感含義的反義; 比較所述評論短句中具有正面情感含義詞語的數(shù)量與具有負(fù)面情感含義詞語的數(shù)量 兩者之間的大小,若具有正面情感含義詞語的數(shù)量大,則標(biāo)注所述評論短句的情感類別為 正面情感,若具有負(fù)面情感含義詞語的數(shù)量大,則標(biāo)注所述評論短句的情感類別為負(fù)面情 感,若兩者相等則標(biāo)注所述評論短句的情感類別為中立情感。6. -種網(wǎng)絡(luò)評論的標(biāo)簽提取裝置,其特征在于,基于實(shí)體知識庫,所述實(shí)體知識庫包含 多個領(lǐng)域的屬性詞,所述屬性詞用于對評論短句的評論對象進(jìn)行標(biāo)注,所述裝置包括: 評論獲取單元,用于獲取網(wǎng)絡(luò)評論信息; 評論分割單元,用于以標(biāo)點(diǎn)符號為分隔符對所述網(wǎng)絡(luò)評論信息進(jìn)行分割,得到若干評 論短句; 情感標(biāo)注單元,用于標(biāo)注每個所述評論短句的情感類別,當(dāng)所述評論短句的情感類別 標(biāo)注為中立情感時,結(jié)束所述評論短句的標(biāo)注; 評論對象標(biāo)注單元,用于當(dāng)所述評論短句的情感類別標(biāo)注為正面情感或負(fù)面情感時, 標(biāo)注所述評論短句的評論對象; 統(tǒng)計(jì)單元,用于按照評論對象進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)同一評論對象中情感類別為正面情感的 評論短句數(shù)量,以及情感類別為負(fù)面情感的評論短句數(shù)量; 標(biāo)簽提取單元,將統(tǒng)計(jì)結(jié)果作為標(biāo)簽進(jìn)行提取,所述統(tǒng)計(jì)結(jié)果包括評論對象,以及所述 評論對象對應(yīng)的正面情感的評論短句數(shù)量和負(fù)面情感的評論短句數(shù)量。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述評論對象標(biāo)注單元,包括: 詞性標(biāo)注子單元,用于對所述評論短句進(jìn)行分詞以及詞性標(biāo)注; 第一判斷子單元,用于判斷詞性標(biāo)注結(jié)果為名詞的詞語是否存在所述實(shí)體知識庫的屬 性詞中,若存在,則將包含所述詞語的評論短句的評論對象標(biāo)注為所述詞語,若不存在,則 分別計(jì)算所述詞語與所述實(shí)體知識庫中各個屬性詞的相似度; 評論對象標(biāo)注子單元,用于將包含所述詞語的評論短句的評論對象標(biāo)注為與所述詞語 相似度最大的屬性詞。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述評論對象標(biāo)注單元,還包括: 第二判斷子單元,用于判斷所述網(wǎng)絡(luò)評論信息中所述詞語的重復(fù)次數(shù)是否超過預(yù)設(shè)的 詞頻閾值,若未超過,則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo)注。9. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述評論對象標(biāo)注單元,還包括: 第三判斷子單元,用于判斷所述詞語和各個屬性詞的最大相似度值是否超過預(yù)設(shè)的相 似度閾值,若未超過,則結(jié)束所述評論短句的標(biāo)注,若超過,則繼續(xù)所述評論短句的標(biāo)注。10. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述情感標(biāo)注單元,包括: 分詞單元,用于對所述評論短句進(jìn)行分詞,得到若干詞語; 第四判斷單元,用于判斷所述若干詞語是否存在情感詞典中,若是都不存在,則結(jié)束所 述評論短句的標(biāo)注,若有部分不存在,則在存在詞語的鄰近幾個字中查詢否定詞,若查詢到 否定詞,則將所述詞語的情感含義改為原來情感含義的反義; 情感標(biāo)注子單元,比較所述評論短句中具有正面情感含義詞語的數(shù)量與具有負(fù)面情感 含義詞語的數(shù)量兩者之間的大小,若具有正面情感含義詞語的數(shù)量大則標(biāo)注所述評論短句 的情感類別為正面情感,若具有負(fù)面情感含義詞語的數(shù)量大則標(biāo)注所述評論短句的情感類 別為負(fù)面情感,若兩者相等則標(biāo)注所述評論短句的情感類別為中立情感。
【文檔編號】G06F17/30GK105824898SQ201610143169
【公開日】2016年8月3日
【申請日】2016年3月14日
【發(fā)明人】陳文亮, 馬春平
【申請人】蘇州大學(xué)