以包括體現(xiàn)用戶個體特征的描述信息。用戶的個性化描述信息可以是用于描述用戶特征(例如體貌特征、性格特征、身體狀態(tài)特征等)的信息,也可以是通過用戶輸入的其他事物的描述信息(例如用戶對其他事物的需求信息等)。舉例而言,當(dāng)本實(shí)施例的信息推送方法應(yīng)用于就醫(yī)指導(dǎo)類信息推送應(yīng)用時(shí),用戶的個性化描述信息可以是癥狀描述信息,如:咳嗽、流鼻涕等。個性化描述信息可以是自然語言表達(dá)的描述信息,例如“我肚子疼”,也可以是專業(yè)術(shù)語表達(dá)的描述信息,例如“腹痛”,還可以是自然語言和專業(yè)術(shù)語相結(jié)合表達(dá)的描述信息,例如“肚子疼,眩暈”,本申請對此不做限定。在一些實(shí)現(xiàn)中,電子設(shè)備獲取的個性化描述信息可以是文本信息,電子設(shè)備可以直接對文字進(jìn)行處理。在另一些實(shí)現(xiàn)中,電子設(shè)備獲取的個性化描述信息是語音信息或圖像信息(如對記載在紙質(zhì)文件上的文字信息進(jìn)行掃描得到的圖像),電子設(shè)備可以首先將語音信息進(jìn)行語音識別或?qū)D像信息進(jìn)行圖像識別處理,得到對應(yīng)的文本信息,再對文本信息中的文字進(jìn)行處理。
[0036]步驟102,對個性化描述信息進(jìn)行內(nèi)容解析,提取描述特征。
[0037]在本實(shí)施例中,電子設(shè)備接著可以采用各種分析手段對個性化描述信息進(jìn)行分析,從而提取出個性化描述信息的描述特征。
[0038]作為一種實(shí)現(xiàn)的示例,對個性化描述信息的分析手段可以是語義分析方法。電子設(shè)備可以對個性化描述信息的內(nèi)容進(jìn)行全切分方法等處理,把內(nèi)容分割成詞;再對所得到的詞進(jìn)行分析。
[0039]作為示例,電子設(shè)備可以利用全切分方法切分出個性化描述信息中與語言詞庫匹配的所有可能的詞,再運(yùn)用統(tǒng)計(jì)語言模型確定最優(yōu)的切分結(jié)果。以用戶輸入信息“我這兩天一直頭暈”為例,可以首先進(jìn)行語言詞庫匹配,找到匹配的所有詞一一我,這,兩天,這兩天,天一,一直,直頭,頭暈;這些詞以詞網(wǎng)格(word lattices)形式表示,接著基于詞網(wǎng)格做路徑搜索,再基于統(tǒng)計(jì)語言模型(例如N-Gram模型,)找到最優(yōu)路徑。如果結(jié)果顯示“我這兩天一直頭暈”的語言模型得分最高,則“我這兩天一直頭暈”即為“我這兩天一直頭暈”。在這里所述的N-Gram模型是常用的一種語言模型,對中文而言,可以稱之為漢語語言模型(CLM, Chinese Language Model)。該N-Gram模型基于這樣一種假設(shè),第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān)。
[0040]在一些實(shí)現(xiàn)中,進(jìn)行切詞之后,電子設(shè)備還可以對切分后的詞進(jìn)行初步篩選,以去除“我”、“了”等一些與信息推送無關(guān)的詞匯。例如,電子設(shè)備可以采用逆向文件頻率方法對這些詞進(jìn)行篩選。逆向文件頻率(Inverse Document Frequency,IDF)主要是指,如果包含某個詞或短語的文檔越少,則IDF越大,則說明該詞或短語具有很好的類別區(qū)分能力,反之,如果包含某個詞或短語的文檔越多,則IDF越小,則說明該詞或短語的類別區(qū)分能力較弱。由此,使用逆向文件頻率方法,可以篩除一些不重要的詞。
[0041]需要說明的是,上述語義分析方式的各種方法是目前廣泛研究和應(yīng)用的公知技術(shù),在此不再贅述。
[0042]經(jīng)過上述處理后,電子設(shè)備將個性化描述信息轉(zhuǎn)換成了多個詞表示的信息。電子設(shè)備可以接著對這些詞進(jìn)行處理,以提取描述特征。例如,電子設(shè)備可以將這些詞全部作為描述特征,也可以從這些詞中挑選出一部分作為描述特征,等等,本申請對此不做限定。
[0043]在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,電子設(shè)備可以預(yù)先存儲有描述關(guān)鍵詞集合。該描述關(guān)鍵詞集合中的描述關(guān)鍵詞可以是從大量的個性化描述信息中提取出來的、與待推送信息相關(guān)的詞匯。描述關(guān)鍵詞可以是自然語言詞匯,也可以是專業(yè)術(shù)語詞匯。舉例而言,當(dāng)本實(shí)施例的信息推送方法應(yīng)用于就醫(yī)指導(dǎo)類信息推送應(yīng)用時(shí),描述特征可以是通過自然語言或?qū)I(yè)術(shù)語描述各種癥狀特征的詞匯,例如:“頭暈”、“拉肚子”、“腹瀉”等等。此時(shí),描述特征可以包括根據(jù)大量的網(wǎng)絡(luò)醫(yī)療診斷網(wǎng)站中抓取的問答數(shù)據(jù)提取的詞匯,例如可以是醫(yī)療領(lǐng)域的專業(yè)術(shù)語的同義詞(如“腹瀉”的同義詞“拉肚子”)、近義詞(如“眩暈”的近義詞“頭暈”)、相關(guān)詞(如“發(fā)熱”的相關(guān)詞“體溫”)。其中,醫(yī)療領(lǐng)域的專業(yè)術(shù)語可以從國家標(biāo)準(zhǔn)(如《中醫(yī)臨床診療術(shù)語癥候部分》)、現(xiàn)代中醫(yī)教科書、現(xiàn)代中醫(yī)詞典、中醫(yī)古籍中的病癥、醫(yī)案論述以及現(xiàn)代病歷數(shù)據(jù)的癥狀記載中獲取。電子設(shè)備可以將個性化描述信息切分出來的詞與該描述關(guān)鍵詞集合中的描述關(guān)鍵詞進(jìn)行匹配,并基于匹配結(jié)果提取描述特征。其中,可以在詞與詞完全相同時(shí)認(rèn)為它們相匹配,也可以在詞與詞相互為同義詞或近義詞時(shí)認(rèn)為它們相匹配。在一些實(shí)現(xiàn)中,電子設(shè)備可以將個性化描述信息中與描述關(guān)鍵詞相匹配的詞作為描述特征。在另一些實(shí)現(xiàn)中,電子設(shè)備可以將個性化描述信息中與描述關(guān)鍵詞相匹配的詞,以及專業(yè)術(shù)語集合中與所匹配到的描述關(guān)鍵詞對應(yīng)的專業(yè)術(shù)語詞匯一起作為描述特征。例如,個性化描述信息為“拉肚子”,描述特征可以包括“拉肚子、腹灣、腹痛”等。
[0044]在本實(shí)施例的一些可選實(shí)現(xiàn)方式中,電子設(shè)備對個性化描述信息進(jìn)行分析,除了提取上述的關(guān)鍵詞作為描述特征外,還可以提取包括但不限于以下至少一項(xiàng)的特征作為描述特征:年齡特征、性別特征、地理位置特征。這些描述特征可以是根據(jù)用戶的注冊信息、定位信息或個性化描述信息提取的特征。例如,電子設(shè)備可以根據(jù)用戶的定位信息確定用戶的當(dāng)前位置坐標(biāo),根據(jù)用戶的注冊信息或個性化描述信息確定用戶的性別、年齡段等。其中,根據(jù)以個性化描述信息確定用戶的年齡段為例,電子設(shè)備可以將個性化描述信息與預(yù)設(shè)的與年齡判斷相關(guān)的詞(例如歲、今年、生于、出生等)進(jìn)行匹配,若匹配到與年齡判斷相關(guān)的詞,在該次的前后詞中檢索代表數(shù)字的詞(如20、2012等等)從而提取出數(shù)值,再根據(jù)這些數(shù)值與數(shù)值閾值的關(guān)系(例如300),將小于數(shù)值閾值的數(shù)值作為用戶的年齡值,將大于數(shù)值閾值的數(shù)值減去當(dāng)前的年份值(如2015),得到的差值作為用戶的年齡值等等。以本申請的信息推送方法應(yīng)用于就醫(yī)指導(dǎo)類信息推送應(yīng)用為例,年齡特征可以用于區(qū)分醫(yī)院職能科室(例如以14周歲以下兒童為診療對象的兒科等),性別特征也可以用于區(qū)分醫(yī)院職能科室(例如與診療生殖系統(tǒng)疾病有關(guān)的婦科、男科等),地理位置特征可以用于選擇位于不同區(qū)域的醫(yī)院的科室信息。
[0045]步驟103,基于預(yù)先訓(xùn)練的關(guān)聯(lián)模型,根據(jù)描述特征確定與所述個性化描述信息相關(guān)聯(lián)的關(guān)聯(lián)描述信息。
[0046]在本實(shí)施例中,電子設(shè)備可以存儲有預(yù)先訓(xùn)練的關(guān)聯(lián)模型,將描述特征作為該關(guān)聯(lián)模型的輸入,可以輸出個性化描述信息所關(guān)聯(lián)的關(guān)聯(lián)描述信息。
[0047]這里,關(guān)聯(lián)模型反映了描述特征(或個性化描述信息)與關(guān)聯(lián)描述信息的對應(yīng)關(guān)系。該對應(yīng)關(guān)系可以是簡單的對應(yīng)關(guān)系,例如當(dāng)描述特征包括A、B、C時(shí),對應(yīng)的關(guān)聯(lián)描述信息為a,也可以是復(fù)雜的對應(yīng)關(guān)系,例如對描述特征包括A、B、C時(shí),A和B對應(yīng)的關(guān)聯(lián)描述信息可能為a或C,B和C對應(yīng)的關(guān)聯(lián)描述信息可能為c或d,A、B和C對應(yīng)的關(guān)聯(lián)描述信息可能為c或e等等。其中,關(guān)聯(lián)描述信息是與個性化描述信息相關(guān)聯(lián)的描述信息,例如,當(dāng)本實(shí)施例的信息推送方法應(yīng)用于就醫(yī)指導(dǎo)類信息推送應(yīng)用時(shí),關(guān)聯(lián)描述信息可以包括疾病或負(fù)責(zé)該疾病的醫(yī)院職能科室(例如骨科、皮膚科等)。通過關(guān)聯(lián)模型,電子設(shè)備可以由個性化描述信息的癥狀描述信息預(yù)測到相應(yīng)的疾病或?qū)?yīng)的科室。如,個性化描述信息包括“發(fā)燒,拉肚子”,通過該關(guān)聯(lián)模型得到關(guān)聯(lián)描述信息可以包括疾病“胃腸炎”或“腸炎”等,或醫(yī)院職能科室“消化內(nèi)科”等。
[0048]作為一個實(shí)現(xiàn)示例,圖2給出了獲得本實(shí)施例的關(guān)聯(lián)模型的一個實(shí)施例的流程200。
[0049]步驟201,根據(jù)包含用戶的個性化描述信息和個性化描述信息所關(guān)聯(lián)的關(guān)聯(lián)描述信息的數(shù)據(jù)樣本提取樣本描述特征。
[0050]在本實(shí)施例中,上述電子設(shè)備或者其他用于訓(xùn)練上述關(guān)聯(lián)模型的電子設(shè)備,可以首先根據(jù)大量的數(shù)據(jù)樣本中的個性化描述信息提取樣本描述特征。其中,數(shù)據(jù)樣本可以從各類網(wǎng)站抓取得到,各數(shù)據(jù)樣本可以包括用戶的個性化描述信息和個性化描述信息所關(guān)聯(lián)的關(guān)聯(lián)描述信息。例如,當(dāng)本申請的信息推送方法應(yīng)用于就醫(yī)指導(dǎo)類信息推送應(yīng)用時(shí),數(shù)據(jù)樣本可以是大量的網(wǎng)絡(luò)醫(yī)療診斷網(wǎng)站中抓取的用戶與對用戶進(jìn)行回應(yīng)的醫(yī)護(hù)人員的交互數(shù)據(jù)。具體地,用戶輸入的數(shù)據(jù)一般是對癥狀的描述信息,該癥狀描述信息可以作為個性化描述信息的樣本,從個性化描述信息中提取描述特征(如醫(yī)療領(lǐng)域的專業(yè)術(shù)語的同義詞、近義詞、相關(guān)詞等)的方法與前述的方法一致,在此不再贅述;醫(yī)護(hù)人員的回應(yīng)數(shù)據(jù)一般包括對用戶的疾病的推斷和/或建議就診的醫(yī)院職能科室,可以從這些數(shù)據(jù)中提取出相應(yīng)的疾病或科室名稱作為關(guān)聯(lián)描述信息的樣本。其中,可以將醫(yī)護(hù)人員的回應(yīng)數(shù)據(jù)與關(guān)聯(lián)描述信息的關(guān)鍵詞(例如可以窮舉的疾病和科室名稱)集合進(jìn)行匹配,將所匹配到的關(guān)聯(lián)描述信息的關(guān)鍵詞作為該條數(shù)據(jù)樣本的關(guān)聯(lián)描述信息。
[0051]步驟202,將樣本描述特征作為輸入,數(shù)據(jù)樣本中的關(guān)聯(lián)描述信息作為輸出,用數(shù)據(jù)樣本集通過深度學(xué)習(xí)方法訓(xùn)練關(guān)聯(lián)模型。
[0052]在本實(shí)施例中,上述電子設(shè)備或者其他用于訓(xùn)練上述關(guān)聯(lián)模型的電子設(shè)備,接著可以將步驟201中提取的樣本描述特征作為輸入,數(shù)據(jù)樣本中的關(guān)聯(lián)描述信息作為輸出,用數(shù)據(jù)樣本集通過深度學(xué)習(xí)的機(jī)器學(xué)習(xí)方法訓(xùn)練關(guān)聯(lián)模型。
[0053]深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以