【技術領域】
本發(fā)明涉及計算機應用技術領域,尤其涉及一種基于人工智能的評論生成方法及裝置、設備與可讀介質。
背景技術:
人工智能(artificialintelligence;ai),是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。
隨著網絡科技的發(fā)展,各種網絡多媒體的興起,增加了用戶獲取各種新聞資訊的途經,提高人們閱讀新聞資訊的效率。例如,用戶可以通過下載新聞應用(application;app)隨時隨地閱讀新聞。
現有技術中,每個新聞應用(application;app)里都包含了大量冷門新聞,評論區(qū)只有少量評論甚至沒有評論。這種新聞用戶參與度低。通常情況下,為了吸引用戶的參與和關注,新聞app的開發(fā)團隊可以采用人工手動撰寫評論的方式,來撰寫多條評論,吸引用戶的關注和參與。
但是現有技術中,人工手動的方式撰寫評論的效率非常低。
技術實現要素:
本發(fā)明提供了一種基于人工智能的評論生成方法及裝置、設備與可讀介質,用于提高評論生成效率。
本發(fā)明提供一種基于人工智能的評論生成方法,所述方法包括:
從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞;
分別獲取所述目標分詞的所述候選分詞對應的對齊特征、語言特征以及上下文特征;
根據所述目標分詞的所述候選分詞對應的所述對齊特征、所述語言特征以及所述上下文特征以及預先訓練的可行性打分模型,預測所述評論語句中所述候選分詞能夠替換對應的所述目標分詞的可行性分值;
若所述可行性分值大于或者等于預設的可行性分數閾值,將所述評論語句中的所述目標分詞替換為所述候選分詞,生成所述主題對應的評論語句。
進一步可選地,如上所述的方法中,從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞之前,所述方法還包括:
從評論庫中獲取與所述主題扣題的所述評論語句;
對所述評論語句進行分詞處理,得到多個所述目標分詞。
進一步可選地,如上所述的方法中,從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞,具體包括:
根據預先訓練的候選詞挖掘模型,獲取與所述評論語句中的所述目標分詞與所述分詞語料庫中各所述分詞預料的對齊概率;
從所述分詞語料庫的多個分詞預料中獲取對齊概率大于或者等于預設概率閾值的分詞預料,作為與所述目標分詞對齊的所述候選分詞。
進一步可選地,如上所述的方法中,獲取所述目標分詞的所述候選分詞對應的對齊特征,具體包括:
分別獲取所述目標分詞與所述候選分詞的第一對齊概率、所述目標分詞對應的第一前分詞與所述候選分詞對應的第一前分詞的第二對齊概率、所述目標分詞對應的第二前分詞與所述候選分詞對應的第二前分詞的第三對齊概率、所述目標分詞對應的第一后分詞與所述候選分詞對應的第一后分詞的第四對齊概率、以及所述目標分詞對應的第二后分詞與所述候選分詞對應的第二后分詞的第五對齊概率;其中,所述目標分詞對應的第一前分詞為所述目標分詞與所述評論語句中所述目標分詞的前相鄰的第一個分詞構成的分詞,所述候選分詞對應的第一前分詞為所述候選分詞與所述評論語句中所述目標分詞的前相鄰的第一個分詞構成的分詞;所述目標分詞對應的第二前分詞為所述目標分詞與所述評論語句中所述目標分詞的前相鄰的兩個分詞構成的分詞,所述候選分詞對應的第二前分詞為所述候選分詞與所述評論語句中所述目標分詞的前相鄰的兩個分詞構成的分詞;所述目標分詞對應的第一后分詞為所述目標分詞與所述評論語句中所述目標分詞的后相鄰的第一個分詞構成的分詞,所述候選分詞對應的第一后分詞為所述候選分詞與所述評論語句中所述目標分詞的后相鄰的第一個分詞構成的分詞;所述目標分詞對應的第二后分詞為所述目標分詞與所述評論語句中所述目標分詞的后相鄰的兩個分詞構成的分詞,所述候選分詞對應的第二后分詞為所述候選分詞與所述評論語句中所述目標分詞的后相鄰的兩個分詞構成的分詞;
根據所述第一對齊概率、所述第二對齊概率、所述第三對齊概率、所述第四對齊概率和所述第五對齊概率,生成所述目標分詞的所述候選分詞對應的對齊特征。
進一步可選地,如上所述的方法中,獲取所述目標分詞的所述候選分詞對應的語言特征,具體包括:
獲取所述評論語句中所述目標分詞前相鄰的兩個分詞;
根據所述目標分詞、所述目標分詞前相鄰的兩個分詞和根據評論語料庫預先訓練的語言模型,獲取所述目標分詞對應的第一語言分值;
根據所述候選分詞、所述目標分詞前相鄰的兩個分詞和預先訓練的語言模型,獲取所述候選分詞對應的第二語言分值;
根據所述第一語言分值和所述第二語言分值,生成所述目標分詞的所述候選分詞對應的語言特征。
進一步可選地,如上所述的方法中,獲取所述目標分詞的所述候選分詞對應的上下文特征,具體包括:
獲取所述目標分詞在所述評論語句中的前相鄰的兩個分詞和后相鄰的兩個分詞構成的詞向量;
獲取所述目標分詞和所述候選分詞構成的替換向量;
根據所述詞向量、所述替換向量以及根據評論語料庫預先訓練的上下文模型,獲取所述目標分詞的所述候選分詞對應的上下文特征。
本發(fā)明還提供一種基于人工智能的評論生成裝置,所述裝置包括:
挖掘模塊,用于從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞;
獲取模塊,用于分別獲取所述目標分詞的所述候選分詞對應的對齊特征、語言特征以及上下文特征;
預測模塊,用于根據所述目標分詞的所述候選分詞對應的所述對齊特征、所述語言特征以及所述上下文特征以及預先訓練的可行性打分模型,預測所述評論語句中所述候選分詞能夠替換對應的所述目標分詞的可行性分值;
生成模塊,用于若所述可行性分值大于或者等于預設的可行性分數閾值,將所述評論語句中的所述目標分詞替換為所述候選分詞,生成所述主題對應的評論語句。
進一步可選地,如上所述的裝置中,還包括分詞模塊;
所述獲取模塊,還用于從評論庫中獲取與所述主題扣題的所述評論語句;
所述分詞模塊,用于對所述評論語句進行分詞處理,得到多個所述目標分詞。
進一步可選地,如上所述的裝置中,所述挖掘模塊,具體用于:
根據預先訓練的候選詞挖掘模型,獲取與所述評論語句中的所述目標分詞與所述分詞語料庫中各所述分詞預料的對齊概率;
從所述分詞語料庫的多個分詞預料中獲取對齊概率大于或者等于預設概率閾值的分詞預料,作為與所述目標分詞對齊的所述候選分詞。
進一步可選地,如上所述的裝置中,所述獲取模塊,具體用于:
分別獲取所述目標分詞與所述候選分詞的第一對齊概率、所述目標分詞對應的第一前分詞與所述候選分詞對應的第一前分詞的第二對齊概率、所述目標分詞對應的第二前分詞與所述候選分詞對應的第二前分詞的第三對齊概率、所述目標分詞對應的第一后分詞與所述候選分詞對應的第一后分詞的第四對齊概率、以及所述目標分詞對應的第二后分詞與所述候選分詞對應的第二后分詞的第五對齊概率;其中,所述目標分詞對應的第一前分詞為所述目標分詞與所述評論語句中所述目標分詞的前相鄰的第一個分詞構成的分詞,所述候選分詞對應的第一前分詞為所述候選分詞與所述評論語句中所述目標分詞的前相鄰的第一個分詞構成的分詞;所述目標分詞對應的第二前分詞為所述目標分詞與所述評論語句中所述目標分詞的前相鄰的兩個分詞構成的分詞,所述候選分詞對應的第二前分詞為所述候選分詞與所述評論語句中所述目標分詞的前相鄰的兩個分詞構成的分詞;所述目標分詞對應的第一后分詞為所述目標分詞與所述評論語句中所述目標分詞的后相鄰的第一個分詞構成的分詞,所述候選分詞對應的第一后分詞為所述候選分詞與所述評論語句中所述目標分詞的后相鄰的第一個分詞構成的分詞;所述目標分詞對應的第二后分詞為所述目標分詞與所述評論語句中所述目標分詞的后相鄰的兩個分詞構成的分詞,所述候選分詞對應的第二后分詞為所述候選分詞與所述評論語句中所述目標分詞的后相鄰的兩個分詞構成的分詞;
根據所述第一對齊概率、所述第二對齊概率、所述第三對齊概率、所述第四對齊概率和所述第五對齊概率,生成所述目標分詞的所述候選分詞對應的對齊特征。
進一步可選地,如上所述的裝置中,所述獲取模塊,還具體用于:
獲取所述評論語句中所述目標分詞前相鄰的兩個分詞;
根據所述目標分詞、所述目標分詞前相鄰的兩個分詞和根據評論語料庫預先訓練的語言模型,獲取所述目標分詞對應的第一語言分值;
根據所述候選分詞、所述目標分詞前相鄰的兩個分詞和預先訓練的語言模型,獲取所述候選分詞對應的第二語言分值;
根據所述第一語言分值和所述第二語言分值,生成所述目標分詞的所述候選分詞對應的語言特征。
進一步可選地,如上所述的裝置中,所述獲取模塊,還具體用于:
獲取所述目標分詞在所述評論語句中的前相鄰的兩個分詞和后相鄰的兩個分詞構成的詞向量;
獲取所述目標分詞和所述候選分詞構成的替換向量;
根據所述詞向量、所述替換向量以及根據評論語料庫預先訓練的上下文模型,獲取所述目標分詞的所述候選分詞對應的上下文特征。
本發(fā)明還提供一種計算機設備,所述設備包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現如上所述的基于人工智能的評論生成方法。
本發(fā)明還提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現如上所述的基于人工智能的評論生成方法。
本發(fā)明的基于人工智能的評論生成方法及裝置、設備與可讀介質,通過從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞;分別獲取目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征;根據目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征以及預先訓練的可行性打分模型,預測評論語句中候選分詞能夠替換對應的目標分詞的可行性分值;若可行性分值大于或者等于預設的可行性分數閾值,將評論語句中的目標分詞替換為候選分詞,生成主題對應的評論語句。本發(fā)明的技術方案,不僅能夠考慮能夠綜合考慮目標分詞和候選分詞的詞義、評論語句的上下文特性以及連貫性,獲取目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征;并進而結合預先訓練的可行性打分模型,能夠準確預測評論語句中候選分詞替換對應的目標分詞的可行性分值;從而可以根據可行性分值生成與評論語句中的上下文連貫性非常好、比較通順、可讀性非常好的評論語句。而且采用本發(fā)明的技術方案,能夠自動生成評論語句,能夠有效地節(jié)省人力成本,提高評論生成的效率。
【附圖說明】
圖1為本發(fā)明的基于人工智能的評論生成方法實施例的流程圖。
圖2為本發(fā)明的基于人工智能的評論生成裝置實施例一的結構圖。
圖3為本發(fā)明的基于人工智能的評論生成裝置實施例二的結構圖。
圖4為本發(fā)明的計算機設備實施例的結構圖。
圖5為本發(fā)明提供的一種計算機設備的示例圖。
【具體實施方式】
為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖和具體實施例對本發(fā)明進行詳細描述。
圖1為本發(fā)明的基于人工智能的評論生成方法實施例的流程圖。如圖1所示,本實施例的基于人工智能的評論生成方法,具體可以包括如下步驟:
100、從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞;
本發(fā)明的基于人工智能的評論生成方法的執(zhí)行主體為基于人工智能的評論生成裝置,該基于人工智能的評論生成裝置可以為一電子的實體裝置,也可以為采用軟件集成的裝置。
本實施例的基于人工智能的評論生成方法,可以應用于新聞評論的領域中。例如對于一些冷門的新聞主題,為了吸引用戶的關注度和參與度,可以通過本實施例的基于人工智能的評論生成方法,自動生成評論。而不用用戶一條一條的去撰寫評論,可以提高評論的生成效率,從而可以提高用戶對該冷門的新聞主題的關注度和參與度。
本實施例中,評論語句中的目標分詞可以評論語句中待研究的分詞。預設的分詞語料庫為預先采集的包括很多分詞預料構成的語料庫。本實施例中與目標分詞對應的候選分詞為與該目標分詞的對齊概率大于或者等于一定的預設概率閾值,即該候選分詞的語義與目標分詞的語義較為接近,但是在生成評論語句的時候,該候選分詞是否能夠替換目標分詞,還需要后續(xù)進行進一步處理。
例如,本實施例的步驟100“從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞”之前,還可以包括如下步驟:
(a1)從評論庫中獲取與主題扣題的評論語句;
(a2)對評論語句進行分詞處理,得到多個目標分詞。
本實施例的評論庫可以為對現有的各種新聞主題的評論語句進行采集,生成評論庫。本實施例中,可以對評論庫中的每一評論語句的語義進行分析,并對當前需要生成評論語句的新聞的主題進行語義分析,獲取與該新聞的主題扣題的評論語句。然后對扣題的評論語句進行分詞處理,從而得到多個可以用來研究是否可以替換為候選分詞生成評論語句的多個目標分詞。
進一步可選地,本實施例的步驟100“從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞”,具體可以包括如下步驟:
(b1)根據預先訓練的候選詞挖掘模型,獲取評論語句中的目標分詞與分詞語料庫中各分詞預料的對齊概率;
(b2)從分詞語料庫的多個分詞預料中獲取對齊概率大于或者等于預設概率閾值的分詞預料,作為與目標分詞對齊的候選分詞。
本實施例的技術方案需要預先訓練候選詞挖掘模型,然后向該候選詞挖掘模型輸入目標分詞,該候選詞挖掘模型可以根據該目標分詞以及分詞預料庫中每個分詞預料的語義信息,計算目標分詞與分詞預料庫中每個分詞預料的對齊概率;然后從分詞預料庫中獲取對齊概率大于或者等于預設概率閾值的分詞預料,作為與目標分詞對齊的候選分詞。例如,候選詞挖掘模型的挖掘方法具體可以通過已有的ibm1算法,并利用phrase抽取技術從分詞預料庫中獲取多個分詞預料到多個分詞預料的對齊以及對齊概率。例如目標分詞為出租車、分詞預料為的士時,出租車=>的士,對齊概率為0.05。再例如北京_出租車=>首都_的士,對齊概率為0.07。假設分詞預料庫中的分詞預料非常豐富的時候,可以對分詞語料庫中的每一個分詞預料輸入至候選詞挖掘模型中,得到該分詞預料對應的候選分詞預料以及對齊概率,并將對齊概率大于或者等于預設概率閾值的候選分詞預料,按照分詞預料-候選分詞預料-對齊概率的方式存儲;通過收集分詞語料庫中的每一個分詞預料的“分詞預料-候選分詞預料-對齊概率”信息并存儲生成一個對齊表。
101、分別獲取目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征;
本實施例中,在判斷該候選分詞是否可以替換目標分詞,需要考慮三個特征,第一個為對齊特征,該對齊特征根據目標分詞、替換分詞、目標分詞在評論語句中的前相鄰的第一分詞、目標分詞在評論語句中的前相鄰的兩個分詞、目標分詞在評論語句中的后相鄰的第一分詞以及目標分詞在評論語句中的后相鄰的兩個分詞,共計算出來的多個對齊概率來確定的。對齊特征是用于考慮評論語句中的上下文對使用候選分詞替換目標分詞的影響。第二個特征為語言特征,該語言特征是用來檢測該候選分詞與評論語句中該目標分詞前相鄰的兩個分詞的連貫性及搭配性,看候選分詞放在評論語句中該目標分詞的位置,語句是否通順,以及與目標分詞在位置的差別。該語言特征可以采用一個預先訓練的語言模型來獲得。第三個特征為上下文特征,這個上下文特征是用來檢測評論語句中該目標分詞的上下文對該候選分詞的一個打分情況。上下文特征具體可以采用神經網絡(neuralnetworks;nn)模型來獲得。
102、根據目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征以及預先訓練的可行性打分模型,預測評論語句中候選分詞替換對應的目標分詞的可行性分值;
102、若可行性分值大于或等于預設的可行性分數閾值,將評論語句中的目標分詞替換為候選分詞,生成主題對應的評論語句。
在獲取目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征之后,將對齊特征、語言特征以及上下文特征輸入至預先訓練的可行性打分模型,該可行性打分模型便可以預測評論語句中候選分詞替換對應的目標分詞的可行性分值;例如該可行性打分模型可以采用隨機森林樹模型學習得到。最后判斷可行性分值是否大于或者等于預設的可行性分數閾值,若可行性分值大于或等于預設的可行性分數閾值,將評論語句中的目標分詞替換為候選分詞,生成主題對應的評論語句;否則若可行性分值小于預設的可行性分數閾值,此時確定該候選分詞不能替換該目標分詞,放棄目標分詞的該候選分詞。
本實施例的基于人工智能的評論生成方法,通過采用上述方案,通過根據與主題扣題的評論語句中的目標分詞和候選分詞,獲取對應的對齊特征、語言特征以及上下文特征,并根據目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征以及預先訓練的可行性打分模型,預測評論語句中候選分詞替換對應的目標分詞的可行性分值,若可行性分值大于或等于預設的可行性分數閾值,將評論語句中的目標分詞替換為候選分詞,生成主題對應的評論語句。本實施例的技術方案,可以對評論庫中的每一個評論語句中的每一個目標分詞進行分詞,生成不同的評論語句,由于該生成的評論語句考慮到對齊特征、語言特征以及上下文特征,因此,該候選分詞替換目標分詞時,與評論語句中該目標分詞的前文連貫性很好,目標分詞的上下文對該候選分詞的打分也比較高,總之,將該候選分詞替換目標分詞后的評論語句中詞與詞之間連貫性非常好,比較通順,整個評論語句的可讀性非常好,而且采用基于人工智能的評論生成裝置能夠自動生成評論語句,能夠有效地節(jié)省人力成本,提高評論生成的效率。
進一步可選地,在上述實施例的技術方案的基礎上,其中步驟101中“獲取目標分詞的候選分詞對應的對齊特征”,具體可以包括如下步驟:
(c1)分別獲取目標分詞與候選分詞的第一對齊概率、目標分詞對應的第一前分詞與候選分詞對應的第一前分詞的第二對齊概率、目標分詞對應的第二前分詞與候選分詞對應的第二前分詞的第三對齊概率、目標分詞對應的第一后分詞與候選分詞對應的第一后分詞的第四對齊概率、以及目標分詞對應的第二后分詞與候選分詞對應的第二后分詞的第五對齊概率;
其中,目標分詞對應的第一前分詞為目標分詞與評論語句中目標分詞的前相鄰的第一個分詞構成的分詞,候選分詞對應的第一前分詞為候選分詞與評論語句中目標分詞的前相鄰的第一個分詞構成的分詞;目標分詞對應的第二前分詞為目標分詞與評論語句中目標分詞的前相鄰的兩個分詞構成的分詞,候選分詞對應的第二前分詞為候選分詞與評論語句中目標分詞的前相鄰的兩個分詞構成的分詞;目標分詞對應的第一后分詞為目標分詞與評論語句中目標分詞的后相鄰的第一個分詞構成的分詞,候選分詞對應的第一后分詞為候選分詞與評論語句中目標分詞的后相鄰的第一個分詞構成的分詞;目標分詞對應的第二后分詞為目標分詞與評論語句中目標分詞的后相鄰的兩個分詞構成的分詞,候選分詞對應的第二后分詞為候選分詞與評論語句中目標分詞的后相鄰的兩個分詞構成的分詞。
例如,為便于描述,若評論語句中某一段的分詞可以表示為“abcdefg”,若目標分詞為d,采用上述實施例的方式,目標分詞對應的第一前分詞為cd,目標分詞對應的第二前分詞為bcd,目標分詞對應的第一后分詞為de,目標分詞對應的第二后分詞為def;若目標分詞d對應的候選分詞為h,此時對應的,候選分詞對應的第一前分詞為ch,候選分詞對應的第二前分詞為bch,候選分詞對應的第一后分詞為he,候選分詞對應的第二后分詞為hef。然后獲取d與h之間的第一對齊概率、cd與ch之間的第二對齊概率、bcd與bch之間的第三對齊概率、de與he之間的第四對齊概率和def與hef之間的第五對齊概率。具體地,可以使用上述實施例中的候選詞挖掘模型分別計算第一對齊概率、第二對齊概率、第三對齊概率第四對齊概率和第五對齊概率?;蛘咭部梢愿鶕A先生成的對齊表中,依次獲取第一對齊概率、第二對齊概率、第三對齊概率、第三對齊概率。如果對齊表中沒有某個對齊概率,可以根據上述實施例中的訓練的候選詞挖掘模型計算其對齊概率,并可以進一步更新在對齊表中。
(c2)根據第一對齊概率、第二對齊概率、第三對齊概率第四對齊概率和第五對齊概率,生成目標分詞的候選分詞對應的對齊特征。
例如,可以將第一對齊概率、第二對齊概率、第三對齊概率第四對齊概率和第五對齊概率按照順序排列,生成一個向量,作為目標分詞的候選分詞對應的對齊特征。
另外,需要說明的是,若目標分詞為評論語句的第一個分詞、第二個分詞、倒數第一個分詞或者倒數第二個分詞時,此時,按照上述方式,缺失的分詞可以采用空位符來表示,此時對應的對齊概率設置為0。
進一步可選地,在上述實施例的技術方案的基礎上,其中步驟101中“獲取目標分詞的候選分詞對應的語言特征”,具體可以包括如下步驟:
(d1)獲取評論語句中目標分詞前相鄰的兩個分詞;
(d2)根據目標分詞、目標分詞前相鄰的兩個分詞和根據評論語料庫預先訓練的語言模型,獲取目標分詞對應的第一語言分值;
(d3)根據候選分詞、目標分詞前相鄰的兩個分詞和預先訓練的語言模型,獲取候選分詞對應的第二語言分值;
(d4)根據第一語言分值和第二語言分值,生成目標分詞的候選分詞對應的語言特征。
由于該語言特征是用來檢測該候選分詞與評論語句中該目標分詞前相鄰的兩個分詞的連貫性及搭配性,因此,需要獲取評論語句中該目標分詞的前相鄰的兩個分詞。然后將目標分詞、評論語句中的該目標分詞的前相鄰的兩個分詞共三個分詞分別輸入至預先訓練的語言模型中,該語言模型可以預測出該目標分詞在評論語句中的第一語言分值;然后將候選分詞、目標分詞前相鄰的兩個分詞共三個分詞分別輸入至預先訓練的語言模型中,該語言模型此時可以預測出若該候選分詞替換目標分詞,在評論語句中的第二語言分值;然后可以根據第一語言分值和第二語言分值,生成目標分詞的候選分詞對應的語言特征;例如可以先計算第二語言分值與第一語言分值的差值的絕對值,然后取第二語言分值、第二語言分值與第一語言分值的差值的絕對值構成語言特征。同理該,語言特征也可以采用向量的形式標識。
本實施例中的語言模型,可以通過統(tǒng)計評論語料庫的各評論語料中每一個訓練目標分詞,與在各評論語料中、該訓練目標分詞前相鄰的兩個分詞的共現頻率來確定的。例如,對于某目標分詞x,在評論語料庫中與前相鄰的兩個分詞b和c的共現頻率,低于評論語料庫中與前相鄰的兩個分詞e和f的共現頻率,那么對于該目標分詞位于前相鄰的兩個分詞b和c之后的語言分值,便低于該目標分詞位于前相鄰的兩個分詞e和f之后的語言分值。即對應地,目標分詞在評論語料庫中與前相鄰的兩個分詞的共現頻率越高,對應的語言分值越高;目標分詞在評論語料庫中與前相鄰的兩個分詞的共現頻率越低,對應的語言分值越低。
同理,若目標分詞為評論語句的第一個分詞,此時獲取的語言特征可以為0。而當目標分詞為評論語句的第二個分詞時,此時,按照上述方式,缺失的分詞可以采用空位符來表示。
進一步可選地,在上述實施例的技術方案的基礎上,其中步驟101中“獲取目標分詞的候選分詞對應的上下文特征”,具體可以包括如下步驟:
(e1)獲取目標分詞在評論語句中的前相鄰的兩個分詞和后相鄰的兩個分詞構成的詞向量;
(e2)獲取目標分詞和候選分詞構成的替換向量;
(e3)根據詞向量、替換向量以及根據評論語料庫預先訓練的上下文模型,獲取目標分詞的候選分詞對應的上下文特征。
本實施例中,上下文模型是用來檢測評論語句中該目標分詞的上下文對該候選分詞的一個打分;因此該上下文模型在使用時,需要獲取目標分詞在評論語句中的前相鄰的兩個分詞和后相鄰的兩個分詞構成的詞向量;同時還需要獲取目標分詞和候選分詞構成的替換向量;然后把這兩個向量輸入至預先訓練的上下文模型中,然后該上下文模型可以輸出替換向量的打分值,即評論語句中該目標分詞的上下文對該替換向量中的候選分詞進行打分的打分值。該打分值為該目標分詞的候選分詞對應的上下文特征。該上下文模型采用nn模型,并通過bp算法計算,得到最終的打分值。
例如,對于某評論語句“淘寶店鋪什么信用才能開”,分詞處理后得到的分詞分別為淘寶店鋪、什么、信用、才能、開。取其中的信用為目標分詞,對應的候選分詞為信譽。此時得到的上細紋的詞向量可以表示為(淘寶店鋪、什么、才能、開),替換向量表示為(信用=>信譽),然后將詞向量和替換向量,可以輸出上下文對該替換向量的打分值。
同理,本實施例中的上下文模型在訓練時,也可以采用評論語料庫中的評論語料來訓練。首先需要根據評論語料庫中的評論語料采集訓練數據。每一條訓練數據可以包括訓練目標分詞對應的詞向量、替換向量以及該訓練數據是正例還是負例;其中詞向量為該訓練目標分詞的評論語料中前相鄰的兩個分詞和后相鄰的兩個分詞構成的;替換向量為該訓練目標分詞和對應的訓練候選分詞構成的。其中訓練目標分詞和訓練候選分詞的獲取方式可以參考上述實施例的記載。訓練之前,上下文模型中的各參數設置有初始值,當采用第一條訓練數據訓練時,將第一條訓練數據中的詞向量、替換向量輸入至上下文模型中,然后該上下文模型預測出該替換向量的打分值。如果訓練數據為正例時,此時該替換向量的打分值應該比較高,例如大于或者等于某預設打分閾值;而此時計算的該替換向量的打分值小于該預設打分閾值,此時可以調整語言模型的參數,使得該替換向量的打分值朝向大于或者等于預設打分閾值的方向靠近。當該訓練數據為負例時,此時該替換向量的打分值應該比較低,小于該預設打分閾值;而此時計算的該替換向量的打分值大于或者等于預設打分閾值,此時可以調整語言模型的參數,使得該替換向量的打分值朝向小于預設打分閾值的方向靠近。經過無數條訓練數據的訓練,可以使得訓練的上下文模型能夠準確預測出該替換向量的打分值。
同理,若目標分詞為評論語句的第一個分詞、第二個分詞、倒數第一個分詞或者倒數第二個分詞時,此時,按照上述方式,缺失的分詞可以采用空位符來表示。
采用上述方式,可以獲取到目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征,然后將獲取的目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征輸入至可行性打分模型中,該可行性打分模型可以根據對齊特征、語言特征以及上下文特征對該評論語句中,使用該候選分詞替換目標分詞的可行性進行打分,得到該評論語句中候選分詞替換對應的目標分詞的可行性分值。
最后需要說明的是,本實施例的步驟102“根據目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征以及預先訓練的可行性打分模型,預測評論語句中候選分詞替換對應的目標分詞的可行性分值”之前,還可以包括:訓練可行性打分模型。
由于可行性打分模型的訓練是基于前述的候選詞挖掘模型、語言模型和上下文模型,采用隨機森林樹模型來訓練的。且可行性打分模型在訓練過程所需要的訓練數據,除了包括步驟102中預測時所需要的對齊特征、語言特征以及上下文特征之外,還需要知道該訓練數據為正例還是負例;對于每一條訓練數據的對齊特征、語言特征以及上下文特征,可以參考上述實施例的記載來獲取,在此不再贅述。同理,當為正例的時候,可行性分值應該比較高,例如大于或者等于某預設可行性分數閾值;而此時計算的該可行性分值小于該預設可行性分數閾值,此時可以調整可行性打分模型的參數,使得該可行性分值朝向大于或者等于預設可行性分數閾值的方向靠近。當該訓練數據為負例時,此時該可行性分值應該比較低,小于該預設可行性分數閾值;而此時計算的該可行性分值大于或者等于預設可行性分數閾值,此時可以調整可行性打分模型的參數,使得該可行性分值朝向小于該預設可行性分數閾值的方向靠近。經過無數條訓練數據的訓練,可以使得訓練的上下文模型能夠準確預測出該候選分詞替換對應的目標分詞的可行性分值。
上述本實施例中的目標分詞作為評論語句中的替換點,在檢測時,可以使用beamsearch來檢測,beamsearch是一種啟發(fā)式圖搜索算法,在每一步深度擴展的時候,剪掉一些質量比較差的替換點,保留下一些效果比較好的替換點。這樣可以在損失極少的情況下減少搜索空間,提高解碼效率。
而且,上述實施例的基于人工智能的評論生成方法,不僅考慮了改寫的打分,而且考慮了改寫后對用戶的吸引程度。實際應用中,還可以根據歷史評論,統(tǒng)計了所有替換點的點贊比。最終組合了可行性分值+點贊打分作為beamsearch解碼的參考,以保證改寫后的句子通順、多樣、且吸引人。
采用上述實施例的基于人工智能的評論生成方法,通過采用上述技術方案,不僅能夠考慮能夠綜合考慮目標分詞和候選分詞的詞義、評論語句的上下文特性以及連貫性,獲取目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征;并進而結合預先訓練的可行性打分模型,能夠準確預測評論語句中候選分詞替換對應的目標分詞的可行性分值;從而可以根據可行性分值生成與評論語句中的上下文連貫性非常好、比較通順、可讀性非常好的評論語句。而且采用本實施例的技術方案,能夠自動生成評論語句,能夠有效地節(jié)省人力成本,提高評論生成的效率。
圖2為本發(fā)明的基于人工智能的評論生成裝置實施例一的結構圖。如圖2所示,本實施例的基于人工智能的評論生成裝置,具體可以包括:挖掘模塊10、獲取模塊11、預測模塊12和生成模塊13。
其中挖掘模塊10用于從預設的分詞語料庫中挖掘與主題扣題的評論語句中的目標分詞對齊的候選分詞;獲取模塊11用于分別獲取挖掘模塊10挖掘的目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征;預測模塊12用于根據獲取模塊11獲取的目標分詞的候選分詞對應的對齊特征、語言特征以及上下文特征以及預先訓練的可行性打分模型,預測評論語句中候選分詞能夠替換對應的目標分詞的可行性分值;生成模塊13用于若預測模塊12預測的可行性分值大于或者等于預設的可行性分數閾值,將評論語句中的目標分詞替換為候選分詞,生成主題對應的評論語句。
本實施例的基于人工智能的評論生成裝置,通過采用上述模塊實現評論生成的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。
圖3為本發(fā)明的基于人工智能的評論生成裝置實施例二的結構圖。如圖3所示,本實施例的基于人工智能的評論生成裝置,在上述圖2所示實施例的技術方案的基礎上,進一步還可以包括如下技術方案。
如圖3所示,本實施例的基于人工智能的評論生成裝置,還包括分詞模塊14。
獲取模塊11還用于從評論庫中獲取與主題扣題的評論語句;
分詞模塊14用于對獲取模塊11獲取的評論語句進行分詞處理,得到多個目標分詞。
進一步可選地,本實施例的基于人工智能的評論生成裝置中,挖掘模塊10具體用于:
根據預先訓練的候選詞挖掘模型,獲取與評論語句中的目標分詞與分詞語料庫中各分詞預料的對齊概率;
從分詞語料庫的多個分詞預料中獲取對齊概率大于或者等于預設概率閾值的分詞預料,作為與目標分詞對齊的候選分詞。
進一步可選地,本實施例的基于人工智能的評論生成裝置中,獲取模塊11具體用于:
分別獲取目標分詞與候選分詞的第一對齊概率、目標分詞對應的第一前分詞與候選分詞對應的第一前分詞的第二對齊概率、目標分詞對應的第二前分詞與候選分詞對應的第二前分詞的第三對齊概率、目標分詞對應的第一后分詞與候選分詞對應的第一后分詞的第四對齊概率、以及目標分詞對應的第二后分詞與候選分詞對應的第二后分詞的第五對齊概率;其中,目標分詞對應的第一前分詞為目標分詞與評論語句中目標分詞的前相鄰的第一個分詞構成的分詞,候選分詞對應的第一前分詞為候選分詞與評論語句中目標分詞的前相鄰的第一個分詞構成的分詞;目標分詞對應的第二前分詞為目標分詞與評論語句中目標分詞的前相鄰的兩個分詞構成的分詞,候選分詞對應的第二前分詞為候選分詞與評論語句中目標分詞的前相鄰的兩個分詞構成的分詞;目標分詞對應的第一后分詞為目標分詞與評論語句中目標分詞的后相鄰的第一個分詞構成的分詞,候選分詞對應的第一后分詞為候選分詞與評論語句中目標分詞的后相鄰的第一個分詞構成的分詞;目標分詞對應的第二后分詞為目標分詞與評論語句中目標分詞的后相鄰的兩個分詞構成的分詞,候選分詞對應的第二后分詞為候選分詞與評論語句中目標分詞的后相鄰的兩個分詞構成的分詞;
根據第一對齊概率、第二對齊概率、第三對齊概率、第四對齊概率和第五對齊概率,生成目標分詞的候選分詞對應的對齊特征。
進一步可選地,本實施例的基于人工智能的評論生成裝置中,獲取模塊11還具體用于:
獲取評論語句中目標分詞前相鄰的兩個分詞;
根據目標分詞、目標分詞前相鄰的兩個分詞和根據評論語料庫預先訓練的語言模型,獲取目標分詞對應的第一語言分值;
根據候選分詞、目標分詞前相鄰的兩個分詞和預先訓練的語言模型,獲取候選分詞對應的第二語言分值;
根據第一語言分值和第二語言分值,生成目標分詞的候選分詞對應的語言特征。
進一步可選地,本實施例的基于人工智能的評論生成裝置中,獲取模塊11還具體用于:
獲取目標分詞在評論語句中的前相鄰的兩個分詞和后相鄰的兩個分詞構成的詞向量;
獲取目標分詞和候選分詞構成的替換向量;
根據詞向量、替換向量以及根據評論語料庫預先訓練的上下文模型,獲取目標分詞的候選分詞對應的上下文特征。
本實施例的基于人工智能的評論生成裝置,通過采用上述模塊實現評論生成的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。
圖4為本發(fā)明的計算機設備實施例的結構圖。如圖4所示,本實施例的計算機設備,包括:一個或多個處理器30,以及存儲器40,存儲器40用于存儲一個或多個程序,當存儲器40中存儲的一個或多個程序被一個或多個處理器30執(zhí)行,使得一個或多個處理器30實現如上實施例的基于人工智能的評論生成方法。圖4所示實施例中以包括多個處理器30為例。
例如,圖5為本發(fā)明提供的一種計算機設備的示例圖。圖5示出了適于用來實現本發(fā)明實施方式的示例性計算機設備12a的框圖。圖5顯示的計算機設備12a僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖5所示,計算機設備12a以通用計算設備的形式表現。計算機設備12a的組件可以包括但不限于:一個或者多個處理器16a,系統(tǒng)存儲器28a,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28a和處理器16a)的總線18a。
總線18a表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結構中的任意總線結構的局域總線。舉例來說,這些體系結構包括但不限于工業(yè)標準體系結構(isa)總線,微通道體系結構(mac)總線,增強型isa總線、視頻電子標準協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。
計算機設備12a典型地包括多種計算機系統(tǒng)可讀介質。這些介質可以是任何能夠被計算機設備12a訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。
系統(tǒng)存儲器28a可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質,例如隨機存取存儲器(ram)30a和/或高速緩存存儲器32a。計算機設備12a可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質。僅作為舉例,存儲系統(tǒng)34a可以用于讀寫不可移動的、非易失性磁介質(圖5未顯示,通常稱為“硬盤驅動器”)。盡管圖5中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質)讀寫的光盤驅動器。在這些情況下,每個驅動器可以通過一個或者多個數據介質接口與總線18a相連。系統(tǒng)存儲器28a可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明上述圖1-圖3各實施例的功能。
具有一組(至少一個)程序模塊42a的程序/實用工具40a,可以存儲在例如系統(tǒng)存儲器28a中,這樣的程序模塊42a包括——但不限于——操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環(huán)境的實現。程序模塊42a通常執(zhí)行本發(fā)明所描述的上述圖1-圖3各實施例中的功能和/或方法。
計算機設備12a也可以與一個或多個外部設備14a(例如鍵盤、指向設備、顯示器24a等)通信,還可與一個或者多個使得用戶能與該計算機設備12a交互的設備通信,和/或與使得該計算機設備12a能與一個或多個其它計算設備進行通信的任何設備(例如網卡,調制解調器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22a進行。并且,計算機設備12a還可以通過網絡適配器20a與一個或者多個網絡(例如局域網(lan),廣域網(wan)和/或公共網絡,例如因特網)通信。如圖所示,網絡適配器20a通過總線18a與計算機設備12a的其它模塊通信。應當明白,盡管圖中未示出,可以結合計算機設備12a使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理器、外部磁盤驅動陣列、raid系統(tǒng)、磁帶驅動器以及數據備份存儲系統(tǒng)等。
處理器16a通過運行存儲在系統(tǒng)存儲器28a中的程序,從而執(zhí)行各種功能應用以及數據處理,例如實現上述實施例所示的基于人工智能的評論生成方法。
本發(fā)明還提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現如上述實施例所示的基于人工智能的評論生成方法。
本實施例的計算機可讀介質可以包括上述圖5所示實施例中的系統(tǒng)存儲器28a中的ram30a、和/或高速緩存存儲器32a、和/或存儲系統(tǒng)34a。
隨著科技的發(fā)展,計算機程序的傳播途徑不再受限于有形介質,還可以直接從網絡下載,或者采用其他方式獲取。因此,本實施例中的計算機可讀介質不僅可以包括有形的介質,還可以包括無形的介質。
本實施例的計算機可讀介質可以采用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用。
計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用的程序。
計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設計語言—諸如”c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡——包括局域網(lan)或廣域網(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網服務提供商來通過因特網連接)。
在本發(fā)明所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕嶋H的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內。