信息挖掘方法和裝置制造方法
【專利摘要】本發(fā)明實施例提供一種信息挖掘方法和裝置。該方法包括:監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息;對監(jiān)聽到的消息進行解析,得到消息內(nèi)容;將消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配;在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。由于即時通信軟件應(yīng)用中發(fā)布消息不僅類別清晰度高,且信息專業(yè)性高,因此通過將解析到的消息內(nèi)容與特征識別詞典中的關(guān)鍵詞進行匹配,并抓取匹配成功的消息內(nèi)容,或抓取匹配成功的消息內(nèi)容和該消息內(nèi)容的相關(guān)內(nèi)容,可自動捕獲特定對象的特征描述信息,節(jié)省了人力成本,并提升了得到的特定對象的特征描述信息的專業(yè)性和準(zhǔn)確性。
【專利說明】信息挖掘方法和裝置
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明實施例涉及信息【技術(shù)領(lǐng)域】,尤其涉及一種信息挖掘方法和裝置。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中獲取與產(chǎn)品或服務(wù)等對象相關(guān)的信息,比如對產(chǎn)品的改進有幫助的產(chǎn)品缺陷描述信息時,通常是通過人工在相關(guān)領(lǐng)域的論壇或網(wǎng)頁中進行抓取,效率低下且準(zhǔn)確度不高。
【發(fā)明內(nèi)容】
[0003]本發(fā)明實施例提供一種信息挖掘方法和裝置,以實現(xiàn)自動捕獲特定對象的特征信息,節(jié)省人力成本,并提升捕獲到的特定對象的特征信息的準(zhǔn)確度。
[0004]第一方面,本發(fā)明實施例提供了一種信息挖掘方法,包括:
[0005]監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息;
[0006]對監(jiān)聽到的消息進行解析,得到消息內(nèi)容;
[0007]將所述消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配;
[0008]在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。
[0009]第二方面,本發(fā)明實施例還提供了一種信息挖掘裝置,包括:
[0010]消息監(jiān)聽模塊,用于監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息;
[0011]消息解析模塊,用于對監(jiān)聽到的消息進行解析,得到消息內(nèi)容;
[0012]匹配模塊,用于將所述消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配;
[0013]特征描述信息處理模塊,用于在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。
[0014]本發(fā)明實施例提供的信息挖掘方法和裝置,通過監(jiān)聽并解析即時通信軟件應(yīng)用中發(fā)布的消息,由于即時通信軟件應(yīng)用中發(fā)布消息不僅類別清晰度高,而且信息專業(yè)性高,因此通過將解析到的消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配,并抓取匹配成功的消息內(nèi)容,或者抓取匹配成功的消息內(nèi)容和該消息內(nèi)容的相關(guān)內(nèi)容,可以自動捕獲特定對象的特征描述信息,節(jié)省了人力成本,并提升了得到的特定對象的特征描述信息的專業(yè)性和準(zhǔn)確性,有利于根據(jù)所述特征描述信息對特定對象進行改進。
【專利附圖】
【附圖說明】
[0015]圖1為本發(fā)明實施例一提供的一種信息挖掘方法的流程圖;
[0016]圖2為本發(fā)明實施例二提供的一種信息挖掘方法的流程圖;
[0017]圖3a為本發(fā)明實施例三提供的一種信息挖掘方法的流程圖;
[0018]圖3b為本發(fā)明實施例三提供的另一種信息挖掘方法的流程圖;
[0019]圖3c為本發(fā)明實施例三提供的又一種信息挖掘方法的流程圖;
[0020]圖4為本發(fā)明實施例四提供的一種信息挖掘裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0021]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0022]實施例一
[0023]請參閱圖1,為本發(fā)明實施例一提供的一種信息挖掘方法的流程圖。本發(fā)明實施例的方法可以由配置以硬件和/或軟件實現(xiàn)的信息挖掘裝置來執(zhí)行,該實現(xiàn)裝置典型的是配置于能夠提供數(shù)據(jù)挖掘服務(wù)的服務(wù)器中。
[0024]該方法包括:操作110?操作140。
[0025]110、監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息。
[0026]通常,每個企業(yè)內(nèi)部都有跟該企業(yè)產(chǎn)品或部門相關(guān)的即時通信軟件應(yīng)用,以方便該企業(yè)內(nèi)負責(zé)各產(chǎn)品研發(fā)群體或負責(zé)運營維護的群體發(fā)布消息。
[0027]例如,百度公司推出的百度Hi是一款集文字消息、語音視頻通話和文件傳輸?shù)裙δ艿募磿r通訊軟件應(yīng)用,在百度Hi中建立的跟產(chǎn)品“百度地圖”或產(chǎn)品“百度翻譯”等對應(yīng)的群組,以方便百度公司內(nèi)負責(zé)各產(chǎn)品研發(fā)或負責(zé)運營維護的工作人員發(fā)布消息。
[0028]其中,發(fā)布消息的方式有多種,可以以文字形式發(fā)布,也可以以語音、視頻或圖片等其他形式發(fā)布,本實施例對此不進行限制,只要得到即時通信軟件應(yīng)用支持即可。
[0029]本操作具體是監(jiān)聽即時通信軟件應(yīng)用中與企業(yè)產(chǎn)品相關(guān)的群組或與企業(yè)部門相關(guān)的群組中發(fā)布的文字消息。
[0030]120、對監(jiān)聽到的消息進行解析,得到消息內(nèi)容。
[0031 ] 本操作中,具體是根據(jù)即時通信軟件應(yīng)用的通信協(xié)議,對監(jiān)聽到的消息進行翻譯,正確還原出與監(jiān)聽到的消息對應(yīng)的原始數(shù)據(jù),也即還原出可閱讀的字符串。
[0032]130、將所述消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配。
[0033]本操作具體是利用關(guān)鍵詞匹配技術(shù),根據(jù)預(yù)先建立的特征識別詞典,確定所述消息內(nèi)容中是否包含所述特征識別詞典中的關(guān)鍵詞。
[0034]需要說明的是,企業(yè)內(nèi)各對象對應(yīng)的群體發(fā)布消息不同,解析到的消息內(nèi)容不同。群體具有類別清晰度高、信息專業(yè)性高和語言特征明顯的特點(例如每個群組包含的群成員都是一種類別或者做同一產(chǎn)品的人群,群成員都具相同或相似的專業(yè)背景),因此不同群體發(fā)布的消息能夠反映企業(yè)對象信息。
[0035]其中,對象可以是具體的各個產(chǎn)品,也可以是企業(yè)管理等宏觀對象。
[0036]例如,“百度地圖”產(chǎn)品對應(yīng)的群組是百度公司負責(zé)“百度地圖”研發(fā)或運營維護的群體,該群組中群成員發(fā)布的消息包含有該產(chǎn)品的優(yōu)缺點信息、或該產(chǎn)品的后續(xù)改進信息。
[0037]又如,“百度瀏覽器”產(chǎn)品對應(yīng)的調(diào)試群組中群成員發(fā)布的消息包含有該產(chǎn)品調(diào)試過程中出現(xiàn)的bug或者疑似問題。
[0038]因此,可以對企業(yè)不同的對象對應(yīng)的群組建立相應(yīng)的特征識別詞典,從而得到不同對象(例如不同的產(chǎn)品,或者企業(yè)管理)對應(yīng)的特征描述信息(例如不同產(chǎn)品的優(yōu)缺點信息,或企業(yè)管理存在的問題);對企業(yè)同一對象的不同群組,優(yōu)選是建立相應(yīng)的特征識別詞典,從而得到與同一對象有關(guān)的不同層面的特征描述信息。
[0039]例如,對“百度地圖”產(chǎn)品中的研發(fā)群體建立與研發(fā)有關(guān)的特征識別詞典,該詞典中的關(guān)鍵詞可以包括“研發(fā)”、“進展”、“趨勢”、“成本”和“對手”等;對“百度地圖”產(chǎn)品中的調(diào)試群體建立與調(diào)試有關(guān)的特征識別詞典,該詞典中的關(guān)鍵詞可以包括“調(diào)試錯誤”、“調(diào)試周期”、“bug”、“漏洞”和“缺陷”等;對“百度地圖”產(chǎn)品中的發(fā)布群體建立與發(fā)布有關(guān)的特征識別詞典,該詞典中的關(guān)鍵詞可以包括“發(fā)布”、“發(fā)布會”、“發(fā)布行程”和“發(fā)布日期”等。
[0040]140、在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。
[0041]本操作中,可以有兩種實施方式,一種是在匹配成功時,抓取所述消息內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存;另一種是在匹配成功時,抓取所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。
[0042]其中,優(yōu)選是抓取所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存,相比于只抓取所述消息內(nèi)容,該優(yōu)選方式有利于得到對象的完整的特征描述信息。
[0043]可以設(shè)定抓取時間間隔和/或抓取條數(shù),以抓取匹配成功的消息內(nèi)容的相關(guān)內(nèi)容,例如將抓取時間間隔設(shè)定為15s,將抓取條數(shù)設(shè)定為5。
[0044]進一步地,所述消息內(nèi)容的相關(guān)內(nèi)容可以包括:所述消息內(nèi)容的上下文消息;和/或,在與發(fā)布所述消息內(nèi)容的用戶建立會話并向所述用戶發(fā)送消息內(nèi)容補充請求后,所述用戶返回的補充內(nèi)容。
[0045]示例 I
[0046]以對象為“百度瀏覽器”產(chǎn)品為例進行說明。該產(chǎn)品的某個群組發(fā)布的消息中包含大量有關(guān)該產(chǎn)品的評價和問題討論,例如:該產(chǎn)品的一個設(shè)計人員在開發(fā)群組中發(fā)布消息“登錄百度瀏覽器時,登錄權(quán)限有問題”,接著該產(chǎn)品的另一個設(shè)計人員在該開發(fā)群組中發(fā)布消息“確實,原因是A”,通過匹配操作后,“登錄百度瀏覽器時,登錄權(quán)限有問題”這條發(fā)布消息與所述特征識別詞典中的關(guān)鍵詞“問題”匹配成功,通過抓取消息內(nèi)容“登錄百度瀏覽器時,登錄權(quán)限有問題”,可以得到該產(chǎn)品的缺陷對應(yīng)的特征描述信息,并通過抓取該消息內(nèi)容的上下文消息“確實,原因是A”,可以得到該產(chǎn)品中該缺陷的產(chǎn)生原因?qū)?yīng)的特征描述信息,從而豐富了該產(chǎn)品的特征描述信息。
[0047]需要說明的是,上述以抓取產(chǎn)品的缺陷對應(yīng)的特征描述信息和該缺陷的產(chǎn)生原因?qū)?yīng)的特征描述信息為例進行說明,除了抓取該缺陷的產(chǎn)生原因?qū)?yīng)的特征描述信息之夕卜,還可以抓取該缺陷對應(yīng)的解決方案等其他特征描述信息,作為產(chǎn)品缺陷的完整信息,并進行格式化(例如[產(chǎn)品名稱、缺陷內(nèi)容、產(chǎn)生原因])存儲,本實施例對此不進行限制。
[0048]示例 2
[0049]在與發(fā)布所述消息內(nèi)容的用戶建立會話后,并采取啟發(fā)式的提問向所述用戶發(fā)送消息內(nèi)容補充請求,以請求補充產(chǎn)品缺陷的完整描述,此時可以基于會話(sess1n)進行抓取,即針對缺陷描述維度較多(例如缺陷類型、缺陷產(chǎn)生原因等)的情況,設(shè)置一個較長的抓取時間(如一分鐘),在此時間內(nèi),抓取所述用戶返回的補充內(nèi)容。如果在此時間內(nèi)仍沒有補充描述,則只記錄基本信息,或由于必要信息不全而返回失敗。
[0050]本實施例的技術(shù)方案,通過監(jiān)聽并解析即時通信軟件應(yīng)用中發(fā)布的消息,由于即時通信軟件應(yīng)用中發(fā)布消息不僅類別清晰度高,而且信息專業(yè)性高,因此通過將解析到的消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配,并抓取匹配成功的消息內(nèi)容,或者抓取匹配成功的消息內(nèi)容和該消息內(nèi)容的相關(guān)內(nèi)容,可以自動捕獲特定對象的特征描述信息,節(jié)省了人力成本,并提升了得到的特定對象的特征描述信息的專業(yè)性和準(zhǔn)確性,有利于根據(jù)所述特征描述信息對特定對象進行改進。
[0051 ] 在本實施例中,建立所述特征識別詞典,具體可以包括:
[0052]接收人工配置的特征識別詞典中的關(guān)鍵詞;或者,
[0053]在所述即時通信軟件的聊天歷史記錄中查找人工收錄的典型語句,根據(jù)該典型語句的上下文共現(xiàn)關(guān)系,挖掘出表達相應(yīng)特征的關(guān)鍵詞并添加在特征識別詞典中。
[0054]換言之,可以人工配置特征識別詞典中的各關(guān)鍵詞,例如,在特征識別詞典中配置“問題”、“缺陷”或“改進”等關(guān)鍵詞。
[0055]也可以人工收錄一些典型語句,并根據(jù)聊天歷史記錄中典型語句的上下文共現(xiàn)關(guān)系,從而將滿足一定共現(xiàn)頻率的典型語句中的表達特征的詞作為關(guān)鍵詞,并添加至特征識別詞典中;或者挖掘出表達特征的語義模板。
[0056]例如,在百度Hi的“百度瀏覽器”產(chǎn)品的研發(fā)群組中,一個人說“檢索式=XXX,配圖錯誤啊,誰誰看看”,另一個人回答“沒錯,是個問題,已記錄缺陷”,如果群消息里多次出現(xiàn)“配圖錯誤”和“已記錄缺陷”這兩句話配對時,就認為配對的這兩句話存在共現(xiàn)關(guān)系,表明這個是需要記錄的缺陷,基于此,可以挖掘出表達缺陷的語義模板“[任意詞]配圖錯誤”。
[0057]本實施例提供的信息挖掘方法,可以應(yīng)用于多種場景,例如,根據(jù)建立的產(chǎn)品缺陷對應(yīng)的特征識別詞典,得到對象為產(chǎn)品的缺陷描述信息;又如,根據(jù)建立的產(chǎn)品調(diào)試對應(yīng)的特征識別詞典,得到對象為產(chǎn)品的調(diào)試問題描述信息;再如,根據(jù)建立的企業(yè)管理對應(yīng)的特征識別詞典,得到對象為企業(yè)管理事件的管理意見征集等描述信息,本實施例對此不進行限制。
[0058]具體地,當(dāng)用于捕獲對象為產(chǎn)品的缺陷描述信息時,所述特征識別詞典中的關(guān)鍵詞包含反映產(chǎn)品缺陷的關(guān)鍵詞,所述特征描述信息為描述產(chǎn)品缺陷的信息。本實施方式提供了從產(chǎn)品挖掘,到缺陷相關(guān)內(nèi)容抓取,最終保存到指定空間的全自動化的實現(xiàn)方式,可以覆蓋企業(yè)所有產(chǎn)品線的重要產(chǎn)品群。
[0059]實施例二
[0060]請參閱圖2,為本發(fā)明實施例二提供的一種信息挖掘方法的流程圖。本實施例在上述實施例的基礎(chǔ)上,提供了在監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息之前的優(yōu)選方案。該優(yōu)選方法包括:操作210?操作220。
[0061]210、在獲取與所述即時通信軟件應(yīng)用對應(yīng)的服務(wù)器的訪問權(quán)限后,與所述服務(wù)器建立連接。
[0062]例如,獲取與即時通信軟件應(yīng)用“百度Hi”對應(yīng)的服務(wù)器的訪問權(quán)限,并與該服務(wù)器建立連接。
[0063]220、向所述服務(wù)器發(fā)送對所述即時通信軟件應(yīng)用中的群組賬號或個人用戶賬號的加入請求。
[0064]例如,向即時通信軟件應(yīng)用“百度Hi”對應(yīng)的服務(wù)器發(fā)送群組賬號“百度瀏覽器-研發(fā)群”的加入請求,從而使得新加入的群成員能夠在該群組中發(fā)布與產(chǎn)品“百度瀏覽器”有關(guān)的消息。
[0065]又如,向即時通信軟件應(yīng)用“百度Hi”對應(yīng)的服務(wù)器發(fā)送個人用戶賬號加入請求,新加入的個人賬號可以與已經(jīng)加入該應(yīng)用的其他個人賬號就同一產(chǎn)品聊天,形成發(fā)布的消息;新加入的個人賬號可以申請加入已經(jīng)加入該應(yīng)用的群組賬號,從而使得新加入的群成員在該群組中發(fā)布消息。
[0066]本實施例的技術(shù)方案,在監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息之前,通過與即時通信軟件應(yīng)用對應(yīng)的服務(wù)器建立連接,并交互賬號加入請求,從而使得加入該即時通信軟件應(yīng)用中的賬號能夠在該應(yīng)用中發(fā)布消息。
[0067]需要說明的是,在向所述服務(wù)器發(fā)送對所述即時通信軟件應(yīng)用中的群組賬號或個人用戶賬號的加入請求之后,監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息,具體包括:在接收到所述服務(wù)器返回的同意加入的響應(yīng)消息后,監(jiān)聽加入的群組中的用戶或加入的個人用戶發(fā)布的消息。
[0068]實施例三
[0069]請參閱圖3a,為本發(fā)明實施例三提供的一種信息挖掘方法的流程圖。本實施例在上述各實施例的基礎(chǔ)上,提供了在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前的優(yōu)選方案。
[0070]該優(yōu)選方法包括:操作310?操作360。
[0071]310、監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息。
[0072]320、對監(jiān)聽到的消息進行解析,得到消息內(nèi)容。
[0073]330、將所述消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配。
[0074]340、在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息。
[0075]350、將所述特征描述信息與預(yù)先建立的類別識別詞典中的關(guān)鍵詞進行匹配,根據(jù)匹配結(jié)果確定所述特征描述信息對應(yīng)的類別。
[0076]如前所述,本發(fā)明實施例提供的信息挖掘方法,可以應(yīng)用于多種場景,因此可以根據(jù)實際應(yīng)用需求,建立包含有多種應(yīng)用需求的類別識別詞典。
[0077]類別識別詞典中的關(guān)鍵詞可以人工配置。所述類別識別詞典中的關(guān)鍵詞可以包括:百度地圖研發(fā)缺陷、百度瀏覽器調(diào)試缺陷和百度翻譯研發(fā)改進等,本實施例對此不進行限制。
[0078]360、將確定的類別與所述特征描述信息進行關(guān)聯(lián)保存。
[0079]本實施例的技術(shù)方案,通過監(jiān)聽并解析即時通信軟件應(yīng)用中發(fā)布的消息,由于即時通信軟件應(yīng)用中發(fā)布消息不僅類別清晰度高,而且信息專業(yè)性高,因此通過將解析到的消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配,并抓取匹配成功的消息內(nèi)容,或者抓取匹配成功的消息內(nèi)容和該消息內(nèi)容的相關(guān)內(nèi)容,可以自動捕獲特定對象的特征描述信息,節(jié)省了人力成本,并提升了得到的特定對象的特征描述信息的專業(yè)性和準(zhǔn)確性,有利于根據(jù)所述特征描述信息對特定對象進行改進;在抓取到對象的特征描述信息之后,通過確定所述特征描述信息對應(yīng)的類別,并將確定的類別與所述特征描述信息進行關(guān)聯(lián)保存,有利于綁定類別對應(yīng)的負責(zé)群體,從而能夠使相應(yīng)負責(zé)群體根據(jù)特定對象的專業(yè)的特征描述信息,及時獲知對象的有價值的反饋。
[0080]需要說明的是,操作350只是確定特征描述信息對應(yīng)的類別的實施方式中的其中一種,確定特征描述信息對應(yīng)的類別還可以是:通過自然語言處理(Natural LanguageProcessing, NLP)模型確定所述特征描述信息對應(yīng)的類別(如圖3b所示的操作351)。
[0081]具體可以采用語義相似度算法模型和/或點擊相似度算法模型,確定所述的特征描述信息對應(yīng)的類別。
[0082]其中,語義相似度利用了自然語言處理云后臺訓(xùn)練的監(jiān)督方法訓(xùn)練模型來分析兩段文本的相似度。值越大越相似。語義相似度的網(wǎng)絡(luò)化提供了計算相似度的功能。比如輸入“筆記本電腦”,“筆記本”的語義相似度為2.08478。
[0083]其中,點擊相似度可以在語義相似度無法達到閾值(如1.8)的情況下使用,分析兩段文本的點擊相似度(比如檢索式和檢索結(jié)果中的標(biāo)題),使用訓(xùn)練的embedding向量計算cosine相似度值,取值范圍[-1,I],值越大點擊相似度越強。比如輸入“百度你好”和“周鴻祎你好”兩者的點擊相似度是-0.121407,輸入“百度你好”和“李彥宏你好”兩者的點擊相似度是0.218664 ;后者點擊相似度比前者高。
[0084]實際使用中優(yōu)先將特征描述信息與預(yù)設(shè)的多個類別分別進行語義相似度判斷,返回語義相似度達到閾值且最高的類別,如果特征描述信息與預(yù)設(shè)類別的語義相似度未達到閾值,則繼續(xù)將特征描述信息與該預(yù)設(shè)類別進行點擊相似度判斷,如果點擊相似度達到閾值則返回相應(yīng)類別,如果點擊相似度未達到閾值,則返回默認類別(如:其他)。閾值會根據(jù)歷史數(shù)據(jù)不斷擬合,以保持更高的準(zhǔn)度。
[0085]還需要說明的是,確定特征描述信息對應(yīng)的類別還可以是:采用預(yù)先根據(jù)已標(biāo)注類別信息的特征描述文本訓(xùn)練出的概率模型確定所述特征描述信息對應(yīng)的類別,所述概率模型的輸入為特征描述文本,輸出為屬于設(shè)定類別的概率值(如圖3c所示的操作352)。具體的,根據(jù)已標(biāo)注類別信息的特征描述文本預(yù)先訓(xùn)練出概率模型,將所述特征描述信息輸入該概率模型,得到該概率模型輸出的所述特征描述信息所對應(yīng)的類別A及對應(yīng)該類別A的概率值,若該概率值滿足一定閾值,則確定所述特征描述信息對應(yīng)的類別為類別A。例如可以通過聊天記錄中的人工分類標(biāo)注和對應(yīng)的描述文本,訓(xùn)練出P(類型I特征描述信息)的概率模型,訓(xùn)練方法可根據(jù)系統(tǒng)的業(yè)務(wù)領(lǐng)域特點靈活選擇,典型的如樸素貝葉斯方法。在應(yīng)用中,若用戶問題描述屬于某一問題分類的概率滿足一定閾值,即可認為屬于該分類。
[0086]在本實施例的基礎(chǔ)上,在確定所述特征描述信息對應(yīng)的類別之后,還可以包括下述操作:
[0087]根據(jù)所述類別確定所述特征描述信息的接收方的信息;
[0088]根據(jù)所述接收方的信息將所述特征描述信息發(fā)送給所述接收方。
[0089]其中,所述接收方的信息可以為設(shè)定網(wǎng)站的地址、設(shè)定接收用戶的短信號碼、郵箱地址或設(shè)定接收用戶的即時通信軟件賬號。
[0090]本實施方式,提供了在抓取到對象的特征描述信息、并確定所述特征描述信息對應(yīng)的類別之后,使接收方獲知對象的特征描述信息的實現(xiàn)方式,將接收方作為類別對應(yīng)的負責(zé)群體,并與該負責(zé)群體交互對象的專業(yè)的特征描述信息,從而能夠使相應(yīng)負責(zé)群體根據(jù)特定對象的專業(yè)的特征描述信息,及時獲知對象的有價值的反饋。
[0091]實施例四
[0092]請參閱圖4,為本發(fā)明實施例四提供的一種信息挖掘裝置的結(jié)構(gòu)示意圖。該裝置包括:消息監(jiān)聽模塊410、消息解析模塊420、匹配模塊430和特征描述信息處理模塊440。
[0093]其中,消息監(jiān)聽模塊410用于監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息;消息解析模塊420用于對監(jiān)聽到的消息進行解析,得到消息內(nèi)容;匹配模塊430用于將所述消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配;特征描述信息處理模塊440用于在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。
[0094]本實施例的技術(shù)方案,通過監(jiān)聽并解析即時通信軟件應(yīng)用中發(fā)布的消息,由于即時通信軟件應(yīng)用中發(fā)布消息不僅類別清晰度高,而且信息專業(yè)性高,因此通過將解析到的消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配,并抓取匹配成功的消息內(nèi)容,或者抓取匹配成功的消息內(nèi)容和該消息內(nèi)容的相關(guān)內(nèi)容,可以自動捕獲特定對象的特征描述信息,節(jié)省了人力成本,并提升了得到的特定對象的特征描述信息的專業(yè)性和準(zhǔn)確性,有利于根據(jù)所述特征描述信息對特定對象進行改進。
[0095]在上述方案中,所述裝置還可以包括:連接建立模塊和請求發(fā)送模塊。
[0096]其中,連接建立模塊用于在監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息之前,在獲取與所述即時通信軟件應(yīng)用對應(yīng)的服務(wù)器的訪問權(quán)限后,與所述服務(wù)器建立連接;請求發(fā)送模塊用于向所述服務(wù)器發(fā)送對所述即時通信軟件應(yīng)用中的群組賬號或個人用戶賬號的加入請求;所述消息監(jiān)聽模塊410具體用于:在接收到所述服務(wù)器返回的同意加入的響應(yīng)消息后,監(jiān)聽加入的群組中的用戶或加入的個人用戶發(fā)布的消息。
[0097]在上述方案中,所述裝置還可以包括特征識別詞典建立模塊,用于接收人工配置的特征識別詞典中的關(guān)鍵詞;或者,
[0098]用于在所述即時通信軟件的聊天歷史記錄中查找人工收錄的典型語句,根據(jù)該典型語句的上下文共現(xiàn)關(guān)系,挖掘出表達相應(yīng)特征的關(guān)鍵詞并添加在特征識別詞典中。
[0099]在上述方案中,所述裝置還可以包括:第一類別確定模塊、或第二類別確定模塊、或第三類別確定模塊。
[0100]其中,第一類別確定模塊用于在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前,將所述特征描述信息與預(yù)先建立的類別識別詞典中的關(guān)鍵詞進行匹配,根據(jù)匹配結(jié)果確定所述特征描述信息對應(yīng)的類別;第二類別確定模塊用于在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前,通過自然語言處理(NLP)模型確定所述特征描述信息對應(yīng)的類別;第三類別確定模塊用于在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前,采用預(yù)先根據(jù)已標(biāo)注類別信息的特征描述文本訓(xùn)練出的概率模型確定所述特征描述信息對應(yīng)的類別;所述特征描述信息處理模塊440具體用于:將確定的類別與所述特征描述信息進行關(guān)聯(lián)保存。
[0101]其中,所述第二類別確定模塊具體用于:采用語義相似度算法模型和/或點擊相似度算法模型,確定所述的特征描述信息對應(yīng)的類別。
[0102]進一步地,所述裝置還可以包括:接收方信息確定模塊和特征描述信息發(fā)送模塊。
[0103]其中,接收方信息確定模塊用于在確定所述特征描述信息對應(yīng)的類別之后,根據(jù)所述類別確定所述特征描述信息的接收方的信息;特征描述信息發(fā)送模塊用于根據(jù)所述接收方的信息將所述特征描述信息發(fā)送給所述接收方。
[0104]其中,所述接收方的信息可以為設(shè)定網(wǎng)站的地址、設(shè)定接收用戶的短信號碼、郵箱地址或設(shè)定接收用戶的即時通信軟件賬號。
[0105]所述消息內(nèi)容的相關(guān)內(nèi)容可以包括:所述消息內(nèi)容的上下文消息;和/或,在與發(fā)布所述消息內(nèi)容的用戶建立會話并向所述用戶發(fā)送消息內(nèi)容補充請求后,所述用戶返回的補充內(nèi)容。
[0106]在上述方案中,所述特征識別詞典中的關(guān)鍵詞可以包含反映產(chǎn)品缺陷的關(guān)鍵詞,相應(yīng)地,所述特征描述信息可以為描述產(chǎn)品缺陷的信息。
[0107]本發(fā)明實施例提供的信息挖掘裝置可執(zhí)行本發(fā)明任意實施例所提供的信息挖掘方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0108]注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【權(quán)利要求】
1.一種信息挖掘方法,其特征在于,包括: 監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息; 對監(jiān)聽到的消息進行解析,得到消息內(nèi)容; 將所述消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配; 在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。
2.如權(quán)利要求1所述的方法,其特征在于,在監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息之前,還包括: 在獲取與所述即時通信軟件應(yīng)用對應(yīng)的服務(wù)器的訪問權(quán)限后,與所述服務(wù)器建立連接; 向所述服務(wù)器發(fā)送對所述即時通信軟件應(yīng)用中的群組賬號或個人用戶賬號的加入請求; 所述監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息,具體包括: 在接收到所述服務(wù)器返回的同意加入的響應(yīng)消息后,監(jiān)聽加入的群組中的用戶或加入的個人用戶發(fā)布的消息。
3.如權(quán)利要求1所述的方法,其特征在于,建立所述特征識別詞典,具體包括: 接收人工配置的特征識別詞典中的關(guān)鍵詞;或者, 在所述即時通信軟件的聊天歷史記錄中查找人工收錄的典型語句,根據(jù)該典型語句的上下文共現(xiàn)關(guān)系,挖掘出表達相應(yīng)特征的關(guān)鍵詞并添加在特征識別詞典中。
4.如權(quán)利要求1所述的方法,其特征在于,在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前,還包括: 將所述特征描述信息與預(yù)先建立的類別識別詞典中的關(guān)鍵詞進行匹配,根據(jù)匹配結(jié)果確定所述特征描述信息對應(yīng)的類別;或,通過自然語言處理NLP模型確定所述特征描述信息對應(yīng)的類別;或,采用預(yù)先根據(jù)已標(biāo)注類別信息的特征描述文本訓(xùn)練出的概率模型確定所述特征描述信息對應(yīng)的類別; 將所述特征描述信息進行保存包括:將確定的類別與所述特征描述信息進行關(guān)聯(lián)保存。
5.如權(quán)利要求4所述的方法,其特征在于,通過自然語言處理NLP模型確定所述特征描述信息對應(yīng)的類別,具體包括: 采用語義相似度算法模型和/或點擊相似度算法模型,確定所述的特征描述信息對應(yīng)的類別。
6.如權(quán)利要求4所述的方法,其特征在于,在確定所述特征描述信息對應(yīng)的類別之后,還包括: 根據(jù)所述類別確定所述特征描述信息的接收方的信息; 根據(jù)所述接收方的信息將所述特征描述信息發(fā)送給所述接收方。
7.如權(quán)利要求6所述的方法,其特征在于,所述接收方的信息為設(shè)定網(wǎng)站的地址、設(shè)定接收用戶的短信號碼、郵箱地址或設(shè)定接收用戶的即時通信軟件賬號。
8.如權(quán)利要求1所述的方法,其特征在于,所述消息內(nèi)容的相關(guān)內(nèi)容包括:所述消息內(nèi)容的上下文消息;和/或,在與發(fā)布所述消息內(nèi)容的用戶建立會話并向所述用戶發(fā)送消息內(nèi)容補充請求后,所述用戶返回的補充內(nèi)容。
9.如權(quán)利要求1-8中任一所述的方法,其特征在于,所述特征識別詞典中的關(guān)鍵詞包含反映產(chǎn)品缺陷的關(guān)鍵詞,所述特征描述信息為描述產(chǎn)品缺陷的信息。
10.一種信息挖掘裝置,其特征在于,包括: 消息監(jiān)聽模塊,用于監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息; 消息解析模塊,用于對監(jiān)聽到的消息進行解析,得到消息內(nèi)容; 匹配模塊,用于將所述消息內(nèi)容與預(yù)先建立的特征識別詞典中的關(guān)鍵詞進行匹配; 特征描述信息處理模塊,用于在匹配成功時,抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息,并將所述特征描述信息進行保存。
11.如權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括: 連接建立模塊,用于在監(jiān)聽即時通信軟件應(yīng)用中發(fā)布的消息之前,在獲取與所述即時通信軟件應(yīng)用對應(yīng)的服務(wù)器的訪問權(quán)限后,與所述服務(wù)器建立連接; 請求發(fā)送模塊,用于向所述服務(wù)器發(fā)送對所述即時通信軟件應(yīng)用中的群組賬號或個人用戶賬號的加入請求; 所述消息監(jiān)聽模塊具體用于:在接收到所述服務(wù)器返回的同意加入的響應(yīng)消息后,監(jiān)聽加入的群組中的用戶或加入的個人用戶發(fā)布的消息。
12.如權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括特征識別詞典建立模塊,用于接收人工配置的特征識別詞典中的關(guān)鍵詞;或者, 用于在所述即時通信軟件的聊天歷史記錄中查找人工收錄的典型語句,根據(jù)該典型語句的上下文共現(xiàn)關(guān)系,挖掘出表達相應(yīng)特征的關(guān)鍵詞并添加在特征識別詞典中。
13.如權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括: 第一類別確定模塊,用于在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前,將所述特征描述信息與預(yù)先建立的類別識別詞典中的關(guān)鍵詞進行匹配,根據(jù)匹配結(jié)果確定所述特征描述信息對應(yīng)的類別;或 第二類別確定模塊,用于在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前,通過自然語言處理NLP模型確定所述特征描述信息對應(yīng)的類別;或 第三類別確定模塊,用于在抓取所述消息內(nèi)容,或者所述消息內(nèi)容和所述消息內(nèi)容的相關(guān)內(nèi)容作為特征描述信息之后、將所述特征描述信息進行保存之前,采用預(yù)先根據(jù)已標(biāo)注類別信息的特征描述文本訓(xùn)練出的概率模型確定所述特征描述信息對應(yīng)的類別; 所述特征描述信息處理模塊具體用于:將確定的類別與所述特征描述信息進行關(guān)聯(lián)保存。
14.如權(quán)利要求13所述的裝置,其特征在于,所述第二類別確定模塊具體用于:采用語義相似度算法模型和/或點擊相似度算法模型,確定所述的特征描述信息對應(yīng)的類別。
15.如權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括: 接收方信息確定模塊,用于在確定所述特征描述信息對應(yīng)的類別之后,根據(jù)所述類別確定所述特征描述信息的接收方的信息; 特征描述信息發(fā)送模塊,用于根據(jù)所述接收方的信息將所述特征描述信息發(fā)送給所述接收方。
16.如權(quán)利要求15所述的裝置,其特征在于,所述接收方的信息為設(shè)定網(wǎng)站的地址、設(shè)定接收用戶的短信號碼、郵箱地址或設(shè)定接收用戶的即時通信軟件賬號。
17.如權(quán)利要求10所述的裝置,其特征在于,所述消息內(nèi)容的相關(guān)內(nèi)容包括:所述消息內(nèi)容的上下文消息;和/或,在與發(fā)布所述消息內(nèi)容的用戶建立會話并向所述用戶發(fā)送消息內(nèi)容補充請求后,所述用戶返回的補充內(nèi)容。
18.如權(quán)利要求10-17中任一所述的裝置,其特征在于,所述特征識別詞典中的關(guān)鍵詞包含反映產(chǎn)品缺陷的關(guān)鍵詞,所述特征描述信息為描述產(chǎn)品缺陷的信息。
【文檔編號】G06F17/30GK104346480SQ201410710424
【公開日】2015年2月11日 申請日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】劉松, 孫凱, 陶明遠 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司