一種面向短新聞的機(jī)器寫稿方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種面向短新聞的機(jī)器寫稿方法及裝置,該方法通過利用優(yōu)化算法智能選擇不同的模板組合進(jìn)行新聞生成,能夠提高所生成新聞的生動(dòng)性與靈活性。該方法的實(shí)現(xiàn)過程如下,基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索;利用優(yōu)化算法進(jìn)行智能模板篩選,確定最終真正使用的模板;基于篩選得到的模板進(jìn)行新聞文本生成;目前的中文新聞寫稿系統(tǒng)主要基于人工定義的模板,然而通過向固定模板填充數(shù)據(jù)而生成的新聞形式比較單一,不夠生動(dòng)。本發(fā)明提出基于多樣化模板集的智能模板篩選生成多樣化的新聞文本,有效改善新聞自動(dòng)生成的效果。
【專利說明】
一種面向短新聞的機(jī)器寫稿方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語言文字處理領(lǐng)域,特別涉及一種短新聞自動(dòng)寫稿的方法和裝置。
【背景技術(shù)】
[0002] 數(shù)據(jù)到文本的生成技術(shù)指根據(jù)給定的數(shù)值數(shù)據(jù)生成相關(guān)文本,例如基于數(shù)值數(shù)據(jù) 生成天氣預(yù)報(bào)文本、體育新聞、財(cái)經(jīng)報(bào)道、醫(yī)療報(bào)告等。數(shù)據(jù)到文本的生成技術(shù)具有極強(qiáng)的 應(yīng)用前景,目前該領(lǐng)域已經(jīng)取得了很大的研究進(jìn)展,業(yè)界已經(jīng)研制出面向不同領(lǐng)域和應(yīng)用 的多個(gè)生成系統(tǒng)。針對(duì)數(shù)據(jù)到文本的生成技術(shù)的研究單位主要集中少數(shù)幾個(gè)單位,例如英 國阿伯丁大學(xué)、英國布萊頓大學(xué)、愛丁堡大學(xué)等,相關(guān)研究成果主要發(fā)表在INLG、ENLG這幾 個(gè)專業(yè)學(xué)術(shù)會(huì)議上。
[0003] 由于數(shù)據(jù)到文本的生成技術(shù)的巨大應(yīng)用價(jià)值,工業(yè)界成立了多家從事文本生成的 公司,能夠?yàn)槎鄠€(gè)行業(yè)基于行業(yè)數(shù)據(jù)生成行業(yè)報(bào)告或新聞報(bào)道,從而節(jié)省大量的人力。比較 知名的公司有41^14^1、似^ &丨"63(^611〇6等。其中41^14是一家總部設(shè)在歐洲的公司,其 前稱為Data2Text,由來自阿伯丁大學(xué)的兩名教授Ehud Reiter與Yaji Sripada創(chuàng)辦,后來 自然語言生成領(lǐng)域的另一位科學(xué)家Robert Dale也加入了該公司,該公司的核心技術(shù)為 ARRIA NLG引擎。AI(Automated Insights)則是一家美國人工智能公司,由一名思科的前工 程師Robbie Allen所創(chuàng)辦,最早基于體育數(shù)據(jù)生成文本摘要,目前能為包括金融、個(gè)人健 身、商業(yè)智能、網(wǎng)站分析等在內(nèi)的多個(gè)領(lǐng)域內(nèi)的數(shù)據(jù)生成文本報(bào)告,其核心技術(shù)為 WordSmith NLG引擎。目前,AI公司已經(jīng)為美聯(lián)社等多家單位生成數(shù)億篇新聞報(bào)道,造成了 巨大的影響力。NarrativeScience則是根據(jù)美國西北大學(xué)的一個(gè)研究項(xiàng)目StatsMonkey發(fā) 展而來,其核心技術(shù)為Quill NLG引擎。Forbes是NarrativeScience的一個(gè)典型客戶,在網(wǎng) 站上有個(gè)NarrativeScience專頁,全部文章都是由NarrativeScience自動(dòng)生成。
[0004] 國內(nèi)學(xué)術(shù)界對(duì)數(shù)據(jù)到文本的生成鮮有研究,也很少見到相關(guān)學(xué)術(shù)成果發(fā)表在重要 學(xué)術(shù)會(huì)議和期刊上。國內(nèi)工業(yè)界則有部分單位研制了基于模板的文本生成系統(tǒng)。例如新華 社已開發(fā)了從財(cái)報(bào)數(shù)據(jù)生成企業(yè)財(cái)報(bào)年報(bào)的系統(tǒng),該系統(tǒng)基于人工模板,將需要的數(shù)據(jù)填 入寫好的模板中,從而生成財(cái)報(bào)年報(bào)。由于采用的模板比較固定,所以為不同企業(yè)生成的財(cái) 報(bào)年報(bào)都比較類似,而不夠生動(dòng)。
[0005] 概括來說,目前從數(shù)據(jù)到新聞文本的生成方式可分為兩種:基于模板填充的方法 與基于自然語言生成的方法。前者需要人工定制寫作模板,通過向固定模板中填充數(shù)據(jù)生 成新聞文本。而后者則基于自然語言生成技術(shù),采用統(tǒng)計(jì)方法從語義表示生成自然語言文 本。本發(fā)明主要涉及基于模板填充的方法。對(duì)于一個(gè)固定的新聞場景,目前的方法會(huì)采用一 個(gè)固定的模板來生成新聞文本,所得到的多篇新聞文本比較雷同,不具有靈活性和生動(dòng)性。 為了克服這個(gè)問題,本發(fā)明提出利用優(yōu)化算法自動(dòng)選擇不同的模板組合進(jìn)行新聞文本的生 成,同一場景下所得到的多篇新聞文本具有多樣性,使得新聞生成過程更加智能。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供一種面向短新聞的機(jī)器寫稿方法,該方法通過利用優(yōu)化算法智能選擇 不同的模板組合進(jìn)行新聞生成,能夠提高所生成新聞的生動(dòng)性與靈活性。本發(fā)明所要求的 輸入為前期通過數(shù)據(jù)分析獲得的知識(shí)點(diǎn)以及人工定義的模板集合。通過數(shù)據(jù)分析,結(jié)合領(lǐng) 域知識(shí),能夠獲得多個(gè)適合在新聞中報(bào)道的知識(shí)點(diǎn),并賦予每個(gè)知識(shí)點(diǎn)一個(gè)重要性權(quán)重。針 對(duì)每個(gè)知識(shí)點(diǎn)P,首先預(yù)先定義和整理描述該知識(shí)點(diǎn)的多個(gè)文本模板!^?),T 2(P),···,TN(P) (P),通過每個(gè)模板能夠生成一個(gè)不同的句子,這些句子之間互為復(fù)述。例如對(duì)于知識(shí)點(diǎn)"股 價(jià)上漲",可以有如下多個(gè)模板來生成不同的文本句子描述該知識(shí)點(diǎn):"股價(jià)上漲X%" ; "股 價(jià)漲X%" ; "股價(jià)漲幅為X%" ;等等。
[0007] 本發(fā)明采用的技術(shù)方案包括:一種基于智能模板選擇的短新聞自動(dòng)寫稿方法,包 括如下步驟:
[0008] (1)基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索;
[0009] (2)利用優(yōu)化算法進(jìn)行智能模板篩選,確定最終真正使用的模板;
[0010] (3)基于篩選得到的模板進(jìn)行新聞文本生成;
[0011] 進(jìn)一步,基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索的步驟如下:
[0012] 對(duì)于輸入知識(shí)點(diǎn)集合KC中的每個(gè)知識(shí)點(diǎn)P,從人工預(yù)先定義的模板庫中進(jìn)行匹配, 找到相應(yīng)的多個(gè)文本模板?\(Ρ),T2(P),…,T N(P)(P),每個(gè)文本模板都能用來描述該知識(shí)點(diǎn), 生成相關(guān)的文本句子;其中N(p)表示為知識(shí)點(diǎn)P匹配得到的文本模板個(gè)數(shù)。由于模板庫中已 經(jīng)對(duì)模板和知識(shí)點(diǎn)的對(duì)應(yīng)關(guān)系做了標(biāo)記,因此根據(jù)知識(shí)點(diǎn)檢索得到候選模板集合。
[0013] 進(jìn)一步,利用優(yōu)化算法進(jìn)行智能模板篩選,確定最終真正使用的模板步驟如下:
[0014] 將候選知識(shí)點(diǎn)和模板的篩選過程建模為整數(shù)線性規(guī)劃問題,知識(shí)點(diǎn)和模板的選擇 由0-1變量所控制,要求在滿足一定約束的前提下最大化新聞所涵蓋的知識(shí)點(diǎn)權(quán)重和以及 所采用的模板權(quán)重之和,通過分支定界法或割平面法或隱枚舉法進(jìn)行求解獲得變量值,從 而確定知識(shí)點(diǎn)和模板的選擇。該方法的好處是能夠智能選擇部分或全部知識(shí)點(diǎn),同時(shí)為每 個(gè)知識(shí)點(diǎn)智能選擇唯一的模板進(jìn)行新聞生成。
[0015] 具體說來,定義輸入知識(shí)點(diǎn)集合KC中的知識(shí)點(diǎn)P對(duì)應(yīng)的重要性權(quán)重為WP,該權(quán)重能 預(yù)先由人工指定或計(jì)算獲得。對(duì)于知識(shí)點(diǎn)P對(duì)應(yīng)的模板集合TC(P) = {TKP),T2(P),…,TN(P) (P)},每個(gè)模板T所生成文本的長度為L(T)個(gè)漢字,且隨機(jī)為每個(gè)模板賦予一個(gè)[0,1]之間 的權(quán)重值WT。最終所生成的新聞文本的長度限制為L max個(gè)漢字,新聞文本的長度限制由實(shí)際 需要而定,比如500個(gè)字。知識(shí)點(diǎn)P與模板T的選擇問題建模為如下整數(shù)線性規(guī)劃問題:
[0016]
[0017] 滿足如下約束:
[0018] bp,cTe{〇,l}⑴
[0019] λε(0,1) (2)
[0020] bp_ETeTC(p)CT = 〇對(duì)于任何Ρ (3)
[0021]
[0022 ]其中:bp表示知識(shí)點(diǎn)Ρ是否被選擇的0-1變量,而cT則表示模板Τ是否被選擇的0-1變 量,λ為系統(tǒng)參數(shù),由人工根據(jù)具體情況而設(shè)定,比如可設(shè)為0.5。約束(3)表明知識(shí)點(diǎn)和模板 之間的約束關(guān)系:一旦一個(gè)知識(shí)點(diǎn)被選擇,則該知識(shí)點(diǎn)對(duì)應(yīng)的一個(gè)模板必須被選擇,且只能 有一個(gè)模板被選擇。相反,如果一個(gè)模板被選擇,則該模板對(duì)應(yīng)的知識(shí)點(diǎn)也必須被選擇。約 束(4)則表明所生成的新聞文本的總的長度必須滿足用戶設(shè)定的長度限制。
[0023] 通過現(xiàn)有的整數(shù)線性規(guī)劃求解算法(比如分支定界法或割平面法或隱枚舉法),能 夠求解得到變量bp與ct的值,根據(jù)該值是否為1來確定每個(gè)知識(shí)點(diǎn)和模板的選擇。
[0024] 上述優(yōu)化算法根據(jù)不同的新聞長度限制會(huì)選擇不同的知識(shí)點(diǎn),而模板的選擇則跟 模板的長度以及模板的隨機(jī)重要性權(quán)重有關(guān),因此即使在同一場景下,最終也能夠選擇不 同的知識(shí)點(diǎn)與模板用于新聞文本生成。
[0025] 進(jìn)一步,基于篩選得到的模板進(jìn)行新聞文本生成的步驟如下:
[0026] 按照所選擇的每個(gè)模板進(jìn)行數(shù)據(jù)填充,得到對(duì)應(yīng)的文本句子。然后對(duì)這些句子按 照新聞文本預(yù)設(shè)規(guī)則進(jìn)行初步排序,獲得最終的新聞文本。排序規(guī)則能依據(jù)不同場景而人 為設(shè)定。
[0027] 本發(fā)明還提供一種基于智能模板選擇的短新聞自動(dòng)寫稿方法的裝置,用于根據(jù)輸 入知識(shí)點(diǎn)和模板庫生成多樣化新聞文本,包括以下單元:候選模板檢索單元、智能模板篩選 單元、新聞文本生成單元;候選模板檢索單元、智能模板篩選單元、新聞文本生成單元依次 相連組成該裝置。
[0028] 其中,候選模板檢索單元基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板的匹配與檢 索,獲得每個(gè)知識(shí)點(diǎn)所對(duì)應(yīng)的所有潛在有用的模板;
[0029] 智能模板篩選單元利用整數(shù)線性規(guī)劃算法進(jìn)行知識(shí)點(diǎn)與模板的智能篩選,確定最 終真正使用的文本模板;
[0030] 新聞文本生成單元?jiǎng)t基于篩選得到的模板進(jìn)行文本句子的生成,對(duì)句子進(jìn)行組合 之后得到最終的新聞文本。
[0031] 本發(fā)明的效果在于:利用豐富的模板資源以及文本復(fù)述關(guān)系,通過優(yōu)化算法自動(dòng) 選擇知識(shí)點(diǎn)與模板,能夠生成不同長度不同表達(dá)的新聞文本。
【附圖說明】
[0032] 圖1是本發(fā)明所提供的對(duì)中文評(píng)論進(jìn)行褒貶分析的方法的流程圖;
【具體實(shí)施方式】
[0033]下面結(jié)合實(shí)施例和附圖進(jìn)一步闡明本發(fā)明所述的技術(shù)方案:
[0034] 如圖1所示,一種基于智能模板選擇的短新聞自動(dòng)寫稿方法,包括如下步驟:
[0035] (1)基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索:
[0036]對(duì)于輸入知識(shí)點(diǎn)集合KC中的每個(gè)知識(shí)點(diǎn)P,從人工預(yù)先定義的模板庫中進(jìn)行匹配, 找到相應(yīng)的多個(gè)文本模板?\(Ρ),T2(P),…,TN(P)(P),每個(gè)文本模板都能用來描述該知識(shí)點(diǎn), 生成相關(guān)的文本句子。其中N(P)表示為知識(shí)點(diǎn)P匹配得到的文本模板個(gè)數(shù)。由于模板庫中已 經(jīng)對(duì)模板和知識(shí)點(diǎn)的對(duì)應(yīng)關(guān)系做了標(biāo)記,因此很容易就可以根據(jù)知識(shí)點(diǎn)檢索得到候選模板 集合。
[0037] (2)利用優(yōu)化算法進(jìn)行智能模板篩選,確定最終真正使用的模板:
[0038]將候選知識(shí)點(diǎn)和模板的篩選過程建模為整數(shù)線性規(guī)劃問題,知識(shí)點(diǎn)和模板的選擇 由0-1變量所控制,要求在滿足一定約束的前提下最大化新聞所涵蓋的知識(shí)點(diǎn)的權(quán)重和以 及所采用的模板的權(quán)重之和,可通過分支定界法、割平面法或隱枚舉法進(jìn)行求解獲得變量 值,從而確定知識(shí)點(diǎn)和模板的選擇。該方法的好處是可以智能選擇部分或全部知識(shí)點(diǎn),同時(shí) 為每個(gè)知識(shí)點(diǎn)智能選擇唯一的模板進(jìn)行新聞生成。
[0039] 具體說來,定義輸入知識(shí)點(diǎn)集合KC中的知識(shí)點(diǎn)P對(duì)應(yīng)的重要性權(quán)重為WP,該權(quán)重可 預(yù)先由人工指定或計(jì)算獲得。對(duì)于知識(shí)點(diǎn)P對(duì)應(yīng)的模板集合TC(P) = {TKP),T2(P),…,TN(P) (P)},每個(gè)模板T所生成文本的長度為L(T)個(gè)漢字,且隨機(jī)為每個(gè)模板賦予一個(gè)[0,1]之間 的權(quán)重值WT。最終所生成的新聞文本的長度限制為L max個(gè)漢字,這個(gè)長度限制根據(jù)實(shí)際需要 而定,比如500個(gè)字。那么知識(shí)點(diǎn)與模板的選擇問題可建模為如下整數(shù)線性規(guī)劃問題:
[0040]
[0041] 滿足如下約束:
[0042] bp,cTe{〇,l} (1)
[0043] λε(0,1) (2)
[0044] bp_ETeTC(p)CT = 0對(duì)于任何Ρ (3)
[0045]
[0046] 其中:bP為表示知識(shí)點(diǎn)Ρ是否被選擇的0-1變量,而CT則為表示模板Τ是否被選擇的 0-1變量。λ為系統(tǒng)參數(shù),由人工根據(jù)具體情況而設(shè)定,比如可設(shè)為0.5。約束(3)表明了知識(shí) 點(diǎn)和模板之間的約束關(guān)系:一旦一個(gè)知識(shí)點(diǎn)被選擇,則該知識(shí)點(diǎn)對(duì)應(yīng)的一個(gè)模板必須被選 擇,且只能有一個(gè)模板被選擇。相反,如果一個(gè)模板被選擇,則該模板對(duì)應(yīng)的知識(shí)點(diǎn)也必須 被選擇。約束(4)則表明所生成的新聞文本的總的長度必須滿足用戶設(shè)定的長度限制。
[0047] 通過現(xiàn)有的整數(shù)線性規(guī)劃求解算法(比如分支定界法、割平面法或隱枚舉法),可 以求解得到變量bP與ct的值,根據(jù)該值是否為1來確定每個(gè)知識(shí)點(diǎn)和模板的選擇。
[0048] 上述優(yōu)化算法根據(jù)不同的新聞長度限制會(huì)選擇不同的知識(shí)點(diǎn),而模板的選擇則跟 模板的長度以及模板的隨機(jī)重要性權(quán)重有關(guān),因此即使在同一場景下,最終也可以選擇不 同的知識(shí)點(diǎn)與模板用于新聞文本生成。
[0049] (3)基于篩選得到的模板進(jìn)行新聞文本生成;
[0050] 按照所選擇的每個(gè)模板進(jìn)行數(shù)據(jù)填充,得到對(duì)應(yīng)的文本句子。然后對(duì)這些句子按 照一定規(guī)則進(jìn)行簡單排序,獲得最終的新聞文本。排序規(guī)則可依據(jù)不同場景而人為設(shè)定。 [0051 ]本發(fā)明還提供一種基于智能模板選擇的短新聞自動(dòng)寫稿方法的裝置,用于根據(jù)輸 入知識(shí)點(diǎn)和模板庫生成多樣化新聞文本,包括以下單元:候選模板檢索單元、智能模板篩選 單元、新聞文本生成單元;
[0052] 其中,候選模板檢索單元基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板的匹配與檢 索,獲得每個(gè)知識(shí)點(diǎn)所對(duì)應(yīng)的所有潛在有用的模板;
[0053] 智能模板篩選單元利用整數(shù)線性規(guī)劃算法進(jìn)行知識(shí)點(diǎn)與模板的智能篩選,確定最 終真正使用的文本模板;
[0054] 新聞文本生成單元?jiǎng)t基于篩選得到的模板進(jìn)行文本句子的生成,對(duì)句子進(jìn)行組合 之后得到最終的新聞文本。
[0055]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng) 涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求所界定的保護(hù)范 圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種面向短新聞的機(jī)器寫稿方法,該方法通過利用優(yōu)化算法智能選擇不同的模板組 合進(jìn)行新聞生成,能夠提高所生成新聞的生動(dòng)性與靈活性;其特征在于:本方法所要求的輸 入為前期通過數(shù)據(jù)分析獲得的知識(shí)點(diǎn)W及人工定義的模板集合;通過數(shù)據(jù)分析,結(jié)合領(lǐng)域 知識(shí),能夠獲得多個(gè)適合在新聞中報(bào)道的知識(shí)點(diǎn),并賦予每個(gè)知識(shí)點(diǎn)一個(gè)重要性權(quán)重;針對(duì) 每個(gè)知識(shí)點(diǎn)P,首先預(yù)先定義和整理描述該知識(shí)點(diǎn)的多個(gè)文本模板Τι(Ρ),Τ2(Ρ),···,Τν(ρ) (Ρ),通過每個(gè)模板能夠生成一個(gè)不同的句子,運(yùn)些句子之間互為復(fù)述;該方法的技術(shù)方案 包括:一種基于智能模板選擇的短新聞自動(dòng)寫稿方法,包括如下步驟: (1) 基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索; (2) 利用優(yōu)化算法進(jìn)行智能模板篩選,確定最終真正使用的模板; (3) 基于篩選得到的模板進(jìn)行新聞文本生成。2. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法,其特征在于:基于輸入的知 識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索的步驟如下: 對(duì)于輸入知識(shí)點(diǎn)集合KC中的每個(gè)知識(shí)點(diǎn)Ρ,從人工預(yù)先定義的模板庫中進(jìn)行匹配,找到 相應(yīng)的多個(gè)文本模板Τι(Ρ),Τ2(Ρ),…,Τν(ρ)(Ρ),每個(gè)文本模板都能用來描述該知識(shí)點(diǎn),生成 相關(guān)的文本句子;其中Ν(Ρ)表示為知識(shí)點(diǎn)Ρ匹配得到的文本模板個(gè)數(shù);由于模板庫中已經(jīng)對(duì) 模板和知識(shí)點(diǎn)的對(duì)應(yīng)關(guān)系做了標(biāo)記,因此根據(jù)知識(shí)點(diǎn)檢索得到候選模板集合。3. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法,其特征在于:利用優(yōu)化算法 進(jìn)行智能模板篩選,確定最終真正使用的模板步驟如下: 將候選知識(shí)點(diǎn)和模板的篩選過程建模為整數(shù)線性規(guī)劃問題,知識(shí)點(diǎn)和模板的選擇由Ο? ι 變量所控制 ,要求在滿足一定約束的前提下最大化新聞所涵蓋的知識(shí)點(diǎn)權(quán)重和 W 及所采 用的模板權(quán)重之和,通過分支定界法或割平面法或隱枚舉法進(jìn)行求解獲得變量值,從而確 定知識(shí)點(diǎn)和模板的選擇;該方法的好處是能夠智能選擇部分或全部知識(shí)點(diǎn),同時(shí)為每個(gè)知 識(shí)點(diǎn)智能選擇唯一的模板進(jìn)行新聞生成。4. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法,其特征在于:定義輸入知識(shí) 點(diǎn)集合KC中的知識(shí)點(diǎn)Ρ對(duì)應(yīng)的重要性權(quán)重為Wp,該權(quán)重能預(yù)先由人工指定或計(jì)算獲得;對(duì)于 知識(shí)點(diǎn)P對(duì)應(yīng)的模板集合1'(:。)= {1'1。),了2。),-,,了腫)。)},每個(gè)模板1'所生成文本的長度 為L(T)個(gè)漢字,且隨機(jī)為每個(gè)模板賦予一個(gè)[0,1]之間的權(quán)重值Wt;最終所生成的新聞文本 的長度限制為Lmax個(gè)漢字,新聞文本的長度限制由實(shí)際需要而定,比如500個(gè)字;知識(shí)點(diǎn)P與 模板T的選擇問題建模為如下整數(shù)線性規(guī)劃問題:其中:bp表示知識(shí)點(diǎn)P是否被選擇的0-1變量,而CT則表示模板T是否被選擇的0-1變量,λ 為系統(tǒng)參數(shù),由人工根據(jù)具體情況而設(shè)定,比如可設(shè)為0.5;約束(3)表明知識(shí)點(diǎn)和模板之間 的約束關(guān)系:一旦一個(gè)知識(shí)點(diǎn)被選擇,則該知識(shí)點(diǎn)對(duì)應(yīng)的一個(gè)模板必須被選擇,且只能有一 個(gè)模板被選擇;相反,如果一個(gè)模板被選擇,則該模板對(duì)應(yīng)的知識(shí)點(diǎn)也必須被選擇;約束(4) 則表明所生成的新聞文本的總的長度必須滿足用戶設(shè)定的長度限制; 通過現(xiàn)有的整數(shù)線性規(guī)劃求解算法(比如分支定界法或割平面法或隱枚舉法),能夠求 解得到變量bp與CT的值,根據(jù)該值是否為1來確定每個(gè)知識(shí)點(diǎn)和模板的選擇; 上述優(yōu)化算法根據(jù)不同的新聞長度限制會(huì)選擇不同的知識(shí)點(diǎn),而模板的選擇則跟模板 的長度W及模板的隨機(jī)重要性權(quán)重有關(guān),因此即使在同一場景下,最終也能夠選擇不同的 知識(shí)點(diǎn)與模板用于新聞文本生成。5. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法,其特征在于:基于篩選得到 的模板進(jìn)行新聞文本生成的步驟如下: 按照所選擇的每個(gè)模板進(jìn)行數(shù)據(jù)填充,得到對(duì)應(yīng)的文本句子;然后對(duì)運(yùn)些句子按照新 聞文本預(yù)設(shè)規(guī)則進(jìn)行初步排序,獲得最終的新聞文本;排序規(guī)則能依據(jù)不同場景而人為設(shè) 定。6. -種基于智能模板選擇的短新聞自動(dòng)寫稿方法的裝置,其特征在于:用于根據(jù)輸入 知識(shí)點(diǎn)和模板庫生成多樣化新聞文本,包括W下單元:候選模板檢索單元、智能模板篩選單 元、新聞文本生成單元;候選模板檢索單元、智能模板篩選單元、新聞文本生成單元依次相 連組成該裝置; 其中,候選模板檢索單元基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板的匹配與檢索,獲 得每個(gè)知識(shí)點(diǎn)所對(duì)應(yīng)的所有潛在有用的模板; 智能模板篩選單元利用整數(shù)線性規(guī)劃算法進(jìn)行知識(shí)點(diǎn)與模板的智能篩選,確定最終真 正使用的文本模板; 新聞文本生成單元?jiǎng)t基于篩選得到的模板進(jìn)行文本句子的生成,對(duì)句子進(jìn)行組合之后 得到最終的新聞文本。
【文檔編號(hào)】G06F17/30GK105975466SQ201510742043
【公開日】2016年9月28日
【申請(qǐng)日】2015年11月4日
【發(fā)明人】呂銳, 曹學(xué)會(huì), 萬小軍, 陳明祥, 熊立波, 鐘盈炯, 林波, 劉愛民, 儲(chǔ)達(dá)峰, 范瑛, 丁望, 瞿弋微, 王熠, 邢承磊, 石超, 張建敏
【申請(qǐng)人】新華通訊社, 北京大學(xué)