本申請涉及通信技術(shù)領(lǐng)域,特別涉及一種問題推薦方法,本申請同時(shí)還涉及一種問題推薦設(shè)備。
背景技術(shù):
隨著雙十一、雙十二等電商節(jié)日的興起,越來越多人開始網(wǎng)上購物,但“節(jié)日經(jīng)濟(jì)”對電商也造成了雙重沖擊即銷量和客服的壓力暴增。企業(yè)的客服一般分為人工客服和自助客服,客服壓力的增加促使企業(yè)使用更多的人工客服,投入的成本也隨之越來越多。
因此,需要自助客服系統(tǒng)具有更大的處理能力,才能滿足客服需求。自助客服系統(tǒng),能夠自動(dòng)處理解決用戶的問題。而自助客服的系統(tǒng)中待處理數(shù)據(jù)量的增加,使現(xiàn)有的方法已經(jīng)不能夠處理全量數(shù)據(jù)。現(xiàn)有的算法隨著問題增加,其計(jì)算效率下降。并且大部分特征是稀疏的,而現(xiàn)有技術(shù)適用于處理稠密特征,這樣,系統(tǒng)中問題特征量增加的同時(shí),對用戶問題的預(yù)測精度就會下降。另外現(xiàn)有技術(shù)中的模型單一,效果受限。所以,隨著信息的不斷爆炸,現(xiàn)在的機(jī)器學(xué)習(xí)模型已經(jīng)不能滿足需求。
因此,本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題就是如何通過對以往問題特征計(jì)算得到需要向用戶推薦的問題,提高向用戶推薦問題的準(zhǔn)確率,進(jìn)而在自助客服節(jié)點(diǎn)解決用戶問題,減少用戶進(jìn)入人工客服,降低人工客服成本。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種問題推薦方法,用于提高向用戶推薦問題的準(zhǔn)確率。所述方法包括以下步驟:
在樣本采集周期內(nèi),獲取問題并獲取所述問題對應(yīng)的問題特征;
對所述問題特征進(jìn)行處理,處理后的問題特征在預(yù)設(shè)的數(shù)值區(qū)間內(nèi);
根據(jù)各個(gè)所述問題及其在所述問題中的第二概率和指定的推薦閾值確定推薦的問題;
其中,各個(gè)所述問題及其在所述問題中的第二概率是通過所述處理后的問題特征和第一概率得到的;所述第一概率是通過所述問題特征得到的。
優(yōu)選地,所述問題特征包括數(shù)值型特征和文本型特征,所述數(shù)值型特征為連續(xù)的,所述文本型特征為不連續(xù)的。
優(yōu)選地,所述獲取問題,具體包括:
在特征獲取周期內(nèi)獲取所述問題;
若存在特征獲取周期內(nèi)未獲取的問題,則所述未獲取的問題的值為空;
若不存在特征獲取周期內(nèi)未獲取的問題,則以獲取的問題作為所述問題。
優(yōu)選地,所述獲取所述問題對應(yīng)的問題特征,具體包括:
在特征獲取周期內(nèi)獲取問題特征;
若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述數(shù)值型特征時(shí),則以獲取的與問題對應(yīng)的問題特征的數(shù)值的均值作為問題特征;
若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述文本型問題特征時(shí),則以獲取的與問題對應(yīng)的問題特征中出現(xiàn)頻率最高的作為問題特征;
若不存在特征獲取周期內(nèi)未獲取的問題特征,則以獲取的問題特征作為所述問題特征。
優(yōu)選地,對所述問題特征進(jìn)行處理,具體包括:
若所述問題特征為數(shù)值型問題特征,則對問題特征進(jìn)行歸一化處理;
若所述問題特征為文本型問題特征,則對問題特征進(jìn)行向量化處理,向量化處理后的問題特征為數(shù)值型問題特征。
優(yōu)選地,所述第二概率是通過對所述處理后的問題特征和所述第一概率進(jìn)行深度神經(jīng)網(wǎng)絡(luò)dnn計(jì)算得到的。
相應(yīng)的本申請還提出了一種問題推薦設(shè)備,所述設(shè)備包括:
獲取模塊:在樣本采集周期內(nèi),獲取問題并獲取所述問題對應(yīng)的問題特征;
處理模塊:對所述問題特征進(jìn)行處理,處理后的問題特征在指定的數(shù)值區(qū)間內(nèi);
確定模塊:根據(jù)各個(gè)所述問題及其在所述問題中的第二概率和指定的推薦閾值確定推薦的問題;
其中,各個(gè)所述問題及其在所述問題中的第二概率是通過所述處理后的問題特征和第一概率得到的;所述第一概率是通過所述問題特征得到的。
優(yōu)選地,所述問題特征包括數(shù)值型特征和文本型特征,所述數(shù)值型特征為連續(xù)的,所述文本型特征為不連續(xù)的。
優(yōu)選地,所述獲取模塊具體用于:
在特征獲取周期內(nèi)獲取所述問題;
若存在特征獲取周期內(nèi)未獲取的問題,則所述未獲取的問題的值為空;
若不存在特征獲取周期內(nèi)未獲取的問題,則以獲取的問題作為所述問題。
優(yōu)選地,所述獲取模塊具體用于:
在特征獲取周期內(nèi)獲取問題特征;
若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述數(shù)值型特征時(shí),則以獲取的與問題對應(yīng)的問題特征的數(shù)值的均值作為問題特征;
若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述文本型問題特征時(shí),則以獲取的與問題對應(yīng)的問題特征中出現(xiàn)頻率最高的作為問題特征;
若不存在特征獲取周期內(nèi)未獲取的問題特征,則以獲取的問題特征作為所述問題特征。
優(yōu)選地,所述處理模塊具體用于:
若所述問題特征為數(shù)值型問題特征,則對問題特征進(jìn)行歸一化處理;
若所述問題特征為文本型問題特征,則對問題特征進(jìn)行向量化處理,向量化處理后的問題特征為數(shù)值型問題特征。
優(yōu)選地,所述第二概率是通過對所述處理后的問題特征和所述第一概率進(jìn)行深度神經(jīng)網(wǎng)絡(luò)dnn計(jì)算得到的。
由此可見,通過應(yīng)用本申請的技術(shù)方案,對問題特征進(jìn)行處理和分類計(jì)算,然后對得到的結(jié)果進(jìn)行進(jìn)一步的深度計(jì)算,即可準(zhǔn)確地輸出各個(gè)所述問題和第二概率。本申請?zhí)岣吡讼蛴脩敉扑]問題的準(zhǔn)確率。本申請可處理稠密性的問題特征值,同時(shí)適合處理大規(guī)模的稀疏數(shù)據(jù),提高了預(yù)測精度。
附圖說明
圖1為本申請?zhí)岢龅囊环N問題推薦方法的流程示意圖;
圖2為本申請具體實(shí)施例所提出的一種dnn模型示意圖;
圖3為本申請?zhí)岢龅囊环N問題推薦設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
有鑒于現(xiàn)有技術(shù)中的問題,本發(fā)明提出了問題推薦方法,該方法應(yīng)用于問題推薦系統(tǒng)中,結(jié)合機(jī)器學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò)模型dnn進(jìn)行模型訓(xùn)練。該系統(tǒng)能夠根據(jù)歷史記錄為用戶推薦其所需的問題,并且擅長處理稀疏型和稠密性的問題特征,可用于提高向用戶推薦問題的準(zhǔn)確率。
如圖1所示,為本申請?zhí)岢隽说囊环N核驗(yàn)信息處理方法流程示意圖,包括以下步驟:
s101,在樣本采集周期內(nèi),獲取問題并獲取所述問題對應(yīng)的問題特征。
本申請旨在向需要問題推薦服務(wù)的用戶推薦問題。用戶可以是該需要問題推薦的用戶和其他用戶。本發(fā)明的系統(tǒng)中存在用戶的歷史記錄,在歷史記 錄中包含各個(gè)問題以及對應(yīng)的問題特征。問題推薦系統(tǒng)通常包括收集層、處理層、存儲層和輸出層。收集層負(fù)責(zé)收集其他設(shè)備發(fā)送的問題及問題特征。處理層利用收集到的問題及問題特征進(jìn)行模型訓(xùn)練。存儲層負(fù)責(zé)數(shù)據(jù)存儲,其中存儲了用戶的歷史記錄。輸出層進(jìn)行問題及問題特征的輸出。本申請中的問題推薦系統(tǒng)可以在服務(wù)器上實(shí)現(xiàn),優(yōu)選采用分布式服務(wù)器。并且本申請可以使用一個(gè)服務(wù)器,也可以使用多個(gè)服務(wù)器組成的集群。
所述問題特征包括數(shù)值型特征和文本型特征,所述數(shù)值型特征為連續(xù)的,比如,數(shù)值型特征為使用過某個(gè)應(yīng)用軟件的次數(shù),數(shù)值9代表使用過9次,所述文本型特征為不連續(xù)的,比如,文本型特征為發(fā)票狀態(tài),對應(yīng)未開發(fā)票和已開發(fā)票。因?yàn)闅v史記錄中的問題和問題特征都具有一定的時(shí)效性,所以設(shè)置樣本采集周期,以采集一段時(shí)期之內(nèi)問題及問題特征,比如一周內(nèi)、一個(gè)月內(nèi)。其他設(shè)備向系統(tǒng)發(fā)送問題及問題特征時(shí),由于不同設(shè)備的ip不同,一些問題、問題特征的獲取時(shí)間較長,可能導(dǎo)致系統(tǒng)在很長時(shí)間內(nèi)不能獲取完畢。
為了更高效地對數(shù)據(jù)進(jìn)行處理,在本申請的優(yōu)選實(shí)施例中,設(shè)定特征獲取周期,在特征獲取周期內(nèi)獲取所述問題。若存在特征獲取周期內(nèi)未獲取的問題,則所述未獲取的問題的值為空,若不存在特征獲取周期內(nèi)未獲取的問題,則以獲取的問題作為所述問題。在特征獲取周期內(nèi)獲取問題特征,若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述數(shù)值型特征時(shí),則以獲取的與問題對應(yīng)的問題特征的數(shù)值的均值作為問題特征,若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述文本型問題特征時(shí),則以獲取的與問題對應(yīng)的問題特征中出現(xiàn)頻率最高的作為問題特征,若不存在特征獲取周期內(nèi)未獲取的問題特征,則以獲取的問題特征作為所述問題特征。
在獲取問題及其對應(yīng)的問題特征之后,推薦系統(tǒng)通過對問題特征進(jìn)行篩選,以刪除一些特征,比如刪除所有用戶都相同的問題特征、容易超出特征獲取周期的問題特征和與經(jīng)營業(yè)務(wù)無關(guān)的問題特征。經(jīng)過篩選得到的特征可 以為后續(xù)建立分類模型作準(zhǔn)備。
s102,對所述問題特征進(jìn)行處理,處理后的問題特征在預(yù)設(shè)的數(shù)值區(qū)間內(nèi)。
在獲取問題和對應(yīng)的問題特征后,問題推薦系統(tǒng)對問題特征進(jìn)行處理。若所述問題特征為數(shù)值型問題特征,則對問題特征進(jìn)行歸一化處理以使處理后的問題特征在指定的數(shù)值區(qū)間內(nèi);若所述問題特征為文本型問題特征,則對問題特征進(jìn)行向量化處理,以使處理后的問題特征為數(shù)值型問題特征并在指定的數(shù)值區(qū)間內(nèi)。
在本申請的優(yōu)選實(shí)施例中,若問題特征是數(shù)值型特征,可以采用百分位分箱算法進(jìn)行歸一化處理,使所有問題特征在經(jīng)過處理后都處在指定的數(shù)值區(qū)間內(nèi)。在進(jìn)行百分位分箱算法處理時(shí),將原始數(shù)值歸納到100個(gè)箱中,然后對箱進(jìn)行編碼,比如0.01,0.02......1.00。經(jīng)過處理的數(shù)值型問題特征處于0至1的數(shù)值區(qū)間內(nèi)。
由于文本型問題特征是以文字的形式呈現(xiàn)的,無法參與計(jì)算。所以,需要對文本型問題特征進(jìn)行向量化處理,將問題特征由文本型特征轉(zhuǎn)化為數(shù)值型特征。可以采用onehot編碼處理文本型特征,計(jì)算各個(gè)特征的頻率,從而按頻率給出onehot編碼。舉例來說,文本型特征為發(fā)票狀態(tài),對應(yīng)未開發(fā)票和已開發(fā)票,經(jīng)過向量化處理后,得到數(shù)值型特征0和1,處于0至1的數(shù)值區(qū)間內(nèi)。
問題特征經(jīng)過處理后,處于指定的數(shù)值區(qū)間內(nèi),以便于參與后續(xù)計(jì)算。需要說明的是,本申請需要得到處于指定數(shù)值區(qū)域內(nèi)的問題特征,故進(jìn)行上述百分位分箱算法和向量化處理方法僅為本申請優(yōu)選實(shí)施例提出的示例,本申請的保護(hù)范圍并不限于此,以上僅為本申請優(yōu)選實(shí)施例提出的示例,在此基礎(chǔ)上還可以選擇其他方式來進(jìn)行計(jì)算,以使本申請適用于更多的應(yīng)用領(lǐng)域, 這些改進(jìn)都屬于本發(fā)明的保護(hù)范圍。
s103,根據(jù)各個(gè)所述問題及其在所述問題中的第二概率和指定的推薦閾值確定推薦的問題。
在獲取問題和對應(yīng)的問題特征后,本申請還需要對問題特征進(jìn)行簡單分類模型計(jì)算,可以采用決策樹算法,從而得到第一概率。在進(jìn)行決策樹計(jì)算時(shí),首先需要有兩輪采樣過程。第一輪對問題特征進(jìn)行隨機(jī)采樣,得到?jīng)Q策樹可處理的問題特征。第二輪進(jìn)行重要特征采樣,根據(jù)所述可處理的問題特征計(jì)算權(quán)重。
在當(dāng)今數(shù)據(jù)接口越來越多的情況下,數(shù)據(jù)集的原始變量、衍生變量會越來越多,因此信息值iv(informationvalue)在實(shí)際數(shù)據(jù)應(yīng)用中十分重要。信息值iv用來表示每一個(gè)變量對目標(biāo)變量來說有多少“信息”的量,從而使得特征選擇變得簡單快速。
在進(jìn)行特征選擇時(shí),總是在將特征的重要程度量化之后再進(jìn)行選擇,而如何量化特征,就成了各種方法間最大的不同。在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征能夠?yàn)榉诸愊到y(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。因此對于一個(gè)特征而言,信息增益為系統(tǒng)存在該特征和不存在該特征時(shí)候的信息量各是多少,兩者的差值就是這個(gè)特征給系統(tǒng)帶來的信息量,即信息增益ig(informationgain)。
因?yàn)樾畔⒅礽v和信息增益ig都可以表示問題特征對應(yīng)的權(quán)重,所以,所述權(quán)重為信息值iv和/或信息增益ig,根據(jù)權(quán)重選出重要特征,然后根據(jù)所述重要特征建立分類模型。然后,通過分類模型對篩選得到的問題特征進(jìn)行分析得到第一概率。將各個(gè)問題特征經(jīng)過決策樹計(jì)算后得到的相應(yīng)概率作為所述第一概率。
需要說明的是,本申請進(jìn)行以上基于決策樹算法得到的各個(gè)問題特征對 應(yīng)概率值的過程僅為本申請優(yōu)選實(shí)施例提出的示例,除此之外還可以選擇比如邏輯回歸計(jì)算等的其他計(jì)算方法,以使本申請適用于更多的應(yīng)用領(lǐng)域,這些改進(jìn)都屬于本發(fā)明的保護(hù)范圍。
在得到處理后的問題特征和第一概率后,對這兩者進(jìn)行計(jì)算,得到各個(gè)所述問題及其在所述問題中的第二概率。在優(yōu)選的實(shí)施例中,所述各個(gè)所述問題及其在所述問題中的第二概率通過dnn計(jì)算得到。問題推薦系統(tǒng)中的深度神經(jīng)網(wǎng)絡(luò)dnn(deepneuralnetwork),包括輸入節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)。dnn計(jì)算包括以下步驟:(1)輸入節(jié)點(diǎn)獲取所述處理后的問題特征和第一概率。(2)計(jì)算節(jié)點(diǎn)通過全連接層、激活函數(shù)relu和多分類損失函數(shù)softmaxloss對處理后的問題特征和第一概率進(jìn)行計(jì)算,得到第二概率。
在具體的應(yīng)用場景中,操作步驟如圖2所示:
a.由輸入層獲取所述處理后的問題特征和第一概率。
在dnn訓(xùn)練前,可以使用決策樹對數(shù)據(jù)進(jìn)行初步分類,同時(shí)可以通過第一概率控制深度神經(jīng)網(wǎng)絡(luò)dnn中網(wǎng)絡(luò)節(jié)點(diǎn)所占的權(quán)重。
b.由中間層即計(jì)算層進(jìn)行問題推薦,計(jì)算層通過全連接層、激活函數(shù)relu和多分類損失函數(shù)softmaxloss對所述處理后的問題特征和第一概率進(jìn)行計(jì)算,得到各個(gè)問題特征對應(yīng)的問題及第二概率。
利用激活函數(shù)relu進(jìn)行計(jì)算,使一部分網(wǎng)絡(luò)中神經(jīng)元的輸出為0,因而造就了網(wǎng)絡(luò)的稀疏性,并且減少了參數(shù)的相互依存關(guān)系,緩解了過擬合問題的發(fā)生。同時(shí),使計(jì)算節(jié)點(diǎn)的計(jì)算量較小,有利于提高系統(tǒng)推薦問題的效率。另外,dnn訓(xùn)練可以使用gpu,能夠針對矩陣計(jì)算進(jìn)行加速,進(jìn)一步提高計(jì)算速度。除激活函數(shù)relu之外,還可以使用sigmoid層進(jìn)行計(jì)算。
c.輸出層輸出各個(gè)所述問題及其對應(yīng)的第二概率。
需要說明的是,本申請是由第一概率和處理后得到的數(shù)值型問題特征,得到第二概率,本申請?zhí)岢龅挠?jì)算方式是dnn計(jì)算,本申請的保護(hù)范圍并不 限于此,以上僅為優(yōu)選實(shí)施例提出的示例,在此基礎(chǔ)上還可以選擇其他方式來進(jìn)行計(jì)算,以使本申請適用于更多的應(yīng)用領(lǐng)域,這些改進(jìn)都屬于本發(fā)明的保護(hù)范圍。
在本申請的優(yōu)選實(shí)施例中,問題推薦系統(tǒng)根據(jù)各個(gè)所述問題及其在所述問題中的第二概率和指定的的推薦閾值,確定推薦的問題。然后根據(jù)閾值得到閾值內(nèi)的問題特征,進(jìn)而以該問題特征對應(yīng)的問題作為推薦的問題。比如在閾值內(nèi)得到六個(gè)問題的問題特征,則系統(tǒng)推薦這六個(gè)問題。本發(fā)明在針對各個(gè)用戶對應(yīng)的歷史記錄中的問題和問題特征進(jìn)行計(jì)算,進(jìn)而確定待推薦的問題之后,當(dāng)用戶訪問問題推薦系統(tǒng)的時(shí)候直接調(diào)用相應(yīng)的結(jié)果。通過本申請中的問題推薦系統(tǒng),用戶能夠直接獲取與之相關(guān)性非常高的問題。
為達(dá)到以上技術(shù)目的,本申請還提出了一種問題推薦設(shè)備,如圖3所示,所述設(shè)備包括:
獲取模塊310:在樣本采集周期內(nèi),獲取問題并獲取所述問題對應(yīng)的問題特征;
處理模塊320:對所述問題特征進(jìn)行處理,處理后的問題特征在指定的數(shù)值區(qū)間內(nèi);
確定模塊330:根據(jù)各個(gè)所述問題及其在所述問題中的第二概率和指定的推薦閾值確定推薦的問題;
其中,各個(gè)所述問題及其在所述問題中的第二概率是通過所述處理后的問題特征和第一概率得到的;所述第一概率是通過所述問題特征得到的。
在優(yōu)選的實(shí)施例中,所述問題特征包括數(shù)值型特征和文本型特征,所述數(shù)值型特征為連續(xù)的,所述文本型特征為不連續(xù)的。
在優(yōu)選的實(shí)施例中,所述獲取模塊具體用于:
在特征獲取周期內(nèi)獲取所述問題;
若存在特征獲取周期內(nèi)未獲取的問題,則所述未獲取的問題的值為空;
若不存在特征獲取周期內(nèi)未獲取的問題,則以獲取的問題作為所述問題。
在優(yōu)選的實(shí)施例中,所述獲取模塊具體用于:
在特征獲取周期內(nèi)獲取問題特征;
若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述數(shù)值型特征時(shí),則以獲取的與問題對應(yīng)的問題特征的數(shù)值的均值作為問題特征;
若存在特征獲取周期內(nèi)未獲取的問題特征,且該問題特征為所述文本型問題特征時(shí),則以獲取的與問題對應(yīng)的問題特征中出現(xiàn)頻率最高的作為問題特征;
若不存在特征獲取周期內(nèi)未獲取的問題特征,則以獲取的問題特征作為所述問題特征。
在優(yōu)選的實(shí)施例中,所述處理模塊具體用于:
若所述問題特征為數(shù)值型問題特征,則對問題特征進(jìn)行歸一化處理;
若所述問題特征為文本型問題特征,則對問題特征進(jìn)行向量化處理,向量化處理后的問題特征為數(shù)值型問題特征。
在優(yōu)選的實(shí)施例中,所述第二概率是通過對所述處理后的問題特征和所述第一概率進(jìn)行深度神經(jīng)網(wǎng)絡(luò)dnn計(jì)算得到的。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可以通過硬件實(shí)現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實(shí)現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個(gè)非易失性存儲介質(zhì)(可以是cd-rom,u盤,移動(dòng)硬盤等)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個(gè)實(shí)施場景所述的方法。
本領(lǐng)域技術(shù)人員可以理解附圖只是一個(gè)優(yōu)選實(shí)施場景的示意圖,附圖中的模塊或流程并不一定是實(shí)施本申請所必須的。
本領(lǐng)域技術(shù)人員可以理解實(shí)施場景中的裝置中的模塊可以按照實(shí)施場景描述進(jìn)行分布于實(shí)施場景的裝置中,也可以進(jìn)行相應(yīng)變化位于不同于本實(shí)施場景的一個(gè)或多個(gè)裝置中。上述實(shí)施場景的模塊可以合并為一個(gè)模塊,也可以進(jìn)一步拆分成多個(gè)子模塊。
上述本申請序號僅僅為了描述,不代表實(shí)施場景的優(yōu)劣。
以上公開的僅為本申請的幾個(gè)具體實(shí)施場景,但是,本申請并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本申請的保護(hù)范圍。