一種面向短新聞的機(jī)器寫稿方法及裝置的制造方法

文檔序號(hào)：10612793閱讀：202來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向短新聞的機(jī)器寫稿方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種面向短新聞的機(jī)器寫稿方法及裝置，該方法通過利用優(yōu)化算法智能選擇不同的模板組合進(jìn)行新聞生成，能夠提高所生成新聞的生動(dòng)性與靈活性。該方法的實(shí)現(xiàn)過程如下，基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索；利用優(yōu)化算法進(jìn)行智能模板篩選，確定最終真正使用的模板；基于篩選得到的模板進(jìn)行新聞文本生成；目前的中文新聞寫稿系統(tǒng)主要基于人工定義的模板，然而通過向固定模板填充數(shù)據(jù)而生成的新聞形式比較單一，不夠生動(dòng)。本發(fā)明提出基于多樣化模板集的智能模板篩選生成多樣化的新聞文本，有效改善新聞自動(dòng)生成的效果。
【專利說明】
一種面向短新聞的機(jī)器寫稿方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語言文字處理領(lǐng)域，特別涉及一種短新聞自動(dòng)寫稿的方法和裝置。
【背景技術(shù)】
[0002] 數(shù)據(jù)到文本的生成技術(shù)指根據(jù)給定的數(shù)值數(shù)據(jù)生成相關(guān)文本，例如基于數(shù)值數(shù)據(jù) 生成天氣預(yù)報(bào)文本、體育新聞、財(cái)經(jīng)報(bào)道、醫(yī)療報(bào)告等。數(shù)據(jù)到文本的生成技術(shù)具有極強(qiáng)的應(yīng)用前景，目前該領(lǐng)域已經(jīng)取得了很大的研究進(jìn)展，業(yè)界已經(jīng)研制出面向不同領(lǐng)域和應(yīng)用的多個(gè)生成系統(tǒng)。針對(duì)數(shù)據(jù)到文本的生成技術(shù)的研究單位主要集中少數(shù)幾個(gè)單位，例如英國阿伯丁大學(xué)、英國布萊頓大學(xué)、愛丁堡大學(xué)等，相關(guān)研究成果主要發(fā)表在INLG、ENLG這幾個(gè)專業(yè)學(xué)術(shù)會(huì)議上。
[0003] 由于數(shù)據(jù)到文本的生成技術(shù)的巨大應(yīng)用價(jià)值，工業(yè)界成立了多家從事文本生成的公司，能夠?yàn)槎鄠€(gè)行業(yè)基于行業(yè)數(shù)據(jù)生成行業(yè)報(bào)告或新聞報(bào)道，從而節(jié)省大量的人力。比較知名的公司有41^14^1、似^ &丨"63(^611〇6等。其中41^14是一家總部設(shè)在歐洲的公司，其前稱為Data2Text，由來自阿伯丁大學(xué)的兩名教授Ehud Reiter與Yaji Sripada創(chuàng)辦，后來自然語言生成領(lǐng)域的另一位科學(xué)家Robert Dale也加入了該公司，該公司的核心技術(shù)為 ARRIA NLG引擎。AI(Automated Insights)則是一家美國人工智能公司，由一名思科的前工程師Robbie Allen所創(chuàng)辦，最早基于體育數(shù)據(jù)生成文本摘要，目前能為包括金融、個(gè)人健身、商業(yè)智能、網(wǎng)站分析等在內(nèi)的多個(gè)領(lǐng)域內(nèi)的數(shù)據(jù)生成文本報(bào)告，其核心技術(shù)為 WordSmith NLG引擎。目前，AI公司已經(jīng)為美聯(lián)社等多家單位生成數(shù)億篇新聞報(bào)道，造成了巨大的影響力。NarrativeScience則是根據(jù)美國西北大學(xué)的一個(gè)研究項(xiàng)目StatsMonkey發(fā) 展而來，其核心技術(shù)為Quill NLG引擎。Forbes是NarrativeScience的一個(gè)典型客戶，在網(wǎng) 站上有個(gè)NarrativeScience專頁，全部文章都是由NarrativeScience自動(dòng)生成。
[0004] 國內(nèi)學(xué)術(shù)界對(duì)數(shù)據(jù)到文本的生成鮮有研究，也很少見到相關(guān)學(xué)術(shù)成果發(fā)表在重要學(xué)術(shù)會(huì)議和期刊上。國內(nèi)工業(yè)界則有部分單位研制了基于模板的文本生成系統(tǒng)。例如新華社已開發(fā)了從財(cái)報(bào)數(shù)據(jù)生成企業(yè)財(cái)報(bào)年報(bào)的系統(tǒng)，該系統(tǒng)基于人工模板，將需要的數(shù)據(jù)填入寫好的模板中，從而生成財(cái)報(bào)年報(bào)。由于采用的模板比較固定，所以為不同企業(yè)生成的財(cái) 報(bào)年報(bào)都比較類似，而不夠生動(dòng)。
[0005] 概括來說，目前從數(shù)據(jù)到新聞文本的生成方式可分為兩種:基于模板填充的方法與基于自然語言生成的方法。前者需要人工定制寫作模板，通過向固定模板中填充數(shù)據(jù)生成新聞文本。而后者則基于自然語言生成技術(shù)，采用統(tǒng)計(jì)方法從語義表示生成自然語言文本。本發(fā)明主要涉及基于模板填充的方法。對(duì)于一個(gè)固定的新聞場景，目前的方法會(huì)采用一個(gè)固定的模板來生成新聞文本，所得到的多篇新聞文本比較雷同，不具有靈活性和生動(dòng)性。為了克服這個(gè)問題，本發(fā)明提出利用優(yōu)化算法自動(dòng)選擇不同的模板組合進(jìn)行新聞文本的生成，同一場景下所得到的多篇新聞文本具有多樣性，使得新聞生成過程更加智能。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明提供一種面向短新聞的機(jī)器寫稿方法，該方法通過利用優(yōu)化算法智能選擇不同的模板組合進(jìn)行新聞生成，能夠提高所生成新聞的生動(dòng)性與靈活性。本發(fā)明所要求的輸入為前期通過數(shù)據(jù)分析獲得的知識(shí)點(diǎn)以及人工定義的模板集合。通過數(shù)據(jù)分析，結(jié)合領(lǐng) 域知識(shí)，能夠獲得多個(gè)適合在新聞中報(bào)道的知識(shí)點(diǎn)，并賦予每個(gè)知識(shí)點(diǎn)一個(gè)重要性權(quán)重。針對(duì)每個(gè)知識(shí)點(diǎn)P，首先預(yù)先定義和整理描述該知識(shí)點(diǎn)的多個(gè)文本模板!^?)，T 2(P)，···，TN(P) (P)，通過每個(gè)模板能夠生成一個(gè)不同的句子，這些句子之間互為復(fù)述。例如對(duì)于知識(shí)點(diǎn)"股價(jià)上漲"，可以有如下多個(gè)模板來生成不同的文本句子描述該知識(shí)點(diǎn)："股價(jià)上漲X%" ； "股價(jià)漲X%" ； "股價(jià)漲幅為X%" ；等等。
[0007] 本發(fā)明采用的技術(shù)方案包括:一種基于智能模板選擇的短新聞自動(dòng)寫稿方法，包括如下步驟：
[0008] (1)基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索；
[0009] (2)利用優(yōu)化算法進(jìn)行智能模板篩選，確定最終真正使用的模板；
[0010] (3)基于篩選得到的模板進(jìn)行新聞文本生成；
[0011] 進(jìn)一步，基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索的步驟如下：
[0012] 對(duì)于輸入知識(shí)點(diǎn)集合KC中的每個(gè)知識(shí)點(diǎn)P，從人工預(yù)先定義的模板庫中進(jìn)行匹配，找到相應(yīng)的多個(gè)文本模板?\(Ρ)，T2(P)，…，T N(P)(P)，每個(gè)文本模板都能用來描述該知識(shí)點(diǎn)，生成相關(guān)的文本句子;其中N(p)表示為知識(shí)點(diǎn)P匹配得到的文本模板個(gè)數(shù)。由于模板庫中已經(jīng)對(duì)模板和知識(shí)點(diǎn)的對(duì)應(yīng)關(guān)系做了標(biāo)記，因此根據(jù)知識(shí)點(diǎn)檢索得到候選模板集合。
[0013] 進(jìn)一步，利用優(yōu)化算法進(jìn)行智能模板篩選，確定最終真正使用的模板步驟如下：
[0014] 將候選知識(shí)點(diǎn)和模板的篩選過程建模為整數(shù)線性規(guī)劃問題，知識(shí)點(diǎn)和模板的選擇由0-1變量所控制，要求在滿足一定約束的前提下最大化新聞所涵蓋的知識(shí)點(diǎn)權(quán)重和以及所采用的模板權(quán)重之和，通過分支定界法或割平面法或隱枚舉法進(jìn)行求解獲得變量值，從而確定知識(shí)點(diǎn)和模板的選擇。該方法的好處是能夠智能選擇部分或全部知識(shí)點(diǎn)，同時(shí)為每個(gè)知識(shí)點(diǎn)智能選擇唯一的模板進(jìn)行新聞生成。
[0015] 具體說來，定義輸入知識(shí)點(diǎn)集合KC中的知識(shí)點(diǎn)P對(duì)應(yīng)的重要性權(quán)重為WP，該權(quán)重能預(yù)先由人工指定或計(jì)算獲得。對(duì)于知識(shí)點(diǎn)P對(duì)應(yīng)的模板集合TC(P) = {TKP)，T2(P)，…，TN(P) (P)}，每個(gè)模板T所生成文本的長度為L(T)個(gè)漢字，且隨機(jī)為每個(gè)模板賦予一個(gè)[0，1]之間的權(quán)重值WT。最終所生成的新聞文本的長度限制為L max個(gè)漢字，新聞文本的長度限制由實(shí)際需要而定，比如500個(gè)字。知識(shí)點(diǎn)P與模板T的選擇問題建模為如下整數(shù)線性規(guī)劃問題：
[0016]
[0017] 滿足如下約束：
[0018] bp，cTe{〇，l}⑴
[0019] λε(0,1) (2)
[0020] bp_ETeTC(p)CT = 〇對(duì)于任何Ρ (3)
[0021]
[0022 ]其中：bp表示知識(shí)點(diǎn)Ρ是否被選擇的0-1變量，而cT則表示模板Τ是否被選擇的0-1變量，λ為系統(tǒng)參數(shù)，由人工根據(jù)具體情況而設(shè)定，比如可設(shè)為0.5。約束(3)表明知識(shí)點(diǎn)和模板之間的約束關(guān)系:一旦一個(gè)知識(shí)點(diǎn)被選擇，則該知識(shí)點(diǎn)對(duì)應(yīng)的一個(gè)模板必須被選擇，且只能有一個(gè)模板被選擇。相反，如果一個(gè)模板被選擇，則該模板對(duì)應(yīng)的知識(shí)點(diǎn)也必須被選擇。約束(4)則表明所生成的新聞文本的總的長度必須滿足用戶設(shè)定的長度限制。
[0023] 通過現(xiàn)有的整數(shù)線性規(guī)劃求解算法(比如分支定界法或割平面法或隱枚舉法），能夠求解得到變量bp與ct的值，根據(jù)該值是否為1來確定每個(gè)知識(shí)點(diǎn)和模板的選擇。
[0024] 上述優(yōu)化算法根據(jù)不同的新聞長度限制會(huì)選擇不同的知識(shí)點(diǎn)，而模板的選擇則跟模板的長度以及模板的隨機(jī)重要性權(quán)重有關(guān)，因此即使在同一場景下，最終也能夠選擇不同的知識(shí)點(diǎn)與模板用于新聞文本生成。
[0025] 進(jìn)一步，基于篩選得到的模板進(jìn)行新聞文本生成的步驟如下：
[0026] 按照所選擇的每個(gè)模板進(jìn)行數(shù)據(jù)填充，得到對(duì)應(yīng)的文本句子。然后對(duì)這些句子按照新聞文本預(yù)設(shè)規(guī)則進(jìn)行初步排序，獲得最終的新聞文本。排序規(guī)則能依據(jù)不同場景而人為設(shè)定。
[0027] 本發(fā)明還提供一種基于智能模板選擇的短新聞自動(dòng)寫稿方法的裝置，用于根據(jù)輸入知識(shí)點(diǎn)和模板庫生成多樣化新聞文本，包括以下單元:候選模板檢索單元、智能模板篩選單元、新聞文本生成單元;候選模板檢索單元、智能模板篩選單元、新聞文本生成單元依次相連組成該裝置。
[0028] 其中，候選模板檢索單元基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板的匹配與檢索，獲得每個(gè)知識(shí)點(diǎn)所對(duì)應(yīng)的所有潛在有用的模板；
[0029] 智能模板篩選單元利用整數(shù)線性規(guī)劃算法進(jìn)行知識(shí)點(diǎn)與模板的智能篩選，確定最終真正使用的文本模板；
[0030] 新聞文本生成單元?jiǎng)t基于篩選得到的模板進(jìn)行文本句子的生成，對(duì)句子進(jìn)行組合之后得到最終的新聞文本。
[0031] 本發(fā)明的效果在于:利用豐富的模板資源以及文本復(fù)述關(guān)系，通過優(yōu)化算法自動(dòng) 選擇知識(shí)點(diǎn)與模板，能夠生成不同長度不同表達(dá)的新聞文本。
【附圖說明】
[0032] 圖1是本發(fā)明所提供的對(duì)中文評(píng)論進(jìn)行褒貶分析的方法的流程圖；
【具體實(shí)施方式】
[0033]下面結(jié)合實(shí)施例和附圖進(jìn)一步闡明本發(fā)明所述的技術(shù)方案：
[0034] 如圖1所示，一種基于智能模板選擇的短新聞自動(dòng)寫稿方法，包括如下步驟：
[0035] (1)基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索：
[0036]對(duì)于輸入知識(shí)點(diǎn)集合KC中的每個(gè)知識(shí)點(diǎn)P，從人工預(yù)先定義的模板庫中進(jìn)行匹配，找到相應(yīng)的多個(gè)文本模板?\(Ρ)，T2(P)，…，TN(P)(P)，每個(gè)文本模板都能用來描述該知識(shí)點(diǎn)，生成相關(guān)的文本句子。其中N(P)表示為知識(shí)點(diǎn)P匹配得到的文本模板個(gè)數(shù)。由于模板庫中已經(jīng)對(duì)模板和知識(shí)點(diǎn)的對(duì)應(yīng)關(guān)系做了標(biāo)記，因此很容易就可以根據(jù)知識(shí)點(diǎn)檢索得到候選模板集合。
[0037] (2)利用優(yōu)化算法進(jìn)行智能模板篩選，確定最終真正使用的模板：
[0038]將候選知識(shí)點(diǎn)和模板的篩選過程建模為整數(shù)線性規(guī)劃問題，知識(shí)點(diǎn)和模板的選擇由0-1變量所控制，要求在滿足一定約束的前提下最大化新聞所涵蓋的知識(shí)點(diǎn)的權(quán)重和以及所采用的模板的權(quán)重之和，可通過分支定界法、割平面法或隱枚舉法進(jìn)行求解獲得變量值，從而確定知識(shí)點(diǎn)和模板的選擇。該方法的好處是可以智能選擇部分或全部知識(shí)點(diǎn)，同時(shí) 為每個(gè)知識(shí)點(diǎn)智能選擇唯一的模板進(jìn)行新聞生成。
[0039] 具體說來，定義輸入知識(shí)點(diǎn)集合KC中的知識(shí)點(diǎn)P對(duì)應(yīng)的重要性權(quán)重為WP，該權(quán)重可預(yù)先由人工指定或計(jì)算獲得。對(duì)于知識(shí)點(diǎn)P對(duì)應(yīng)的模板集合TC(P) = {TKP)，T2(P)，…，TN(P) (P)}，每個(gè)模板T所生成文本的長度為L(T)個(gè)漢字，且隨機(jī)為每個(gè)模板賦予一個(gè)[0，1]之間的權(quán)重值WT。最終所生成的新聞文本的長度限制為L max個(gè)漢字，這個(gè)長度限制根據(jù)實(shí)際需要而定，比如500個(gè)字。那么知識(shí)點(diǎn)與模板的選擇問題可建模為如下整數(shù)線性規(guī)劃問題：
[0040]
[0041] 滿足如下約束：
[0042] bp，cTe{〇，l} (1)
[0043] λε(0,1) (2)
[0044] bp_ETeTC(p)CT = 0對(duì)于任何Ρ (3)
[0045]
[0046] 其中：bP為表示知識(shí)點(diǎn)Ρ是否被選擇的0-1變量，而CT則為表示模板Τ是否被選擇的 0-1變量。λ為系統(tǒng)參數(shù)，由人工根據(jù)具體情況而設(shè)定，比如可設(shè)為0.5。約束(3)表明了知識(shí) 點(diǎn)和模板之間的約束關(guān)系：一旦一個(gè)知識(shí)點(diǎn)被選擇，則該知識(shí)點(diǎn)對(duì)應(yīng)的一個(gè)模板必須被選擇，且只能有一個(gè)模板被選擇。相反，如果一個(gè)模板被選擇，則該模板對(duì)應(yīng)的知識(shí)點(diǎn)也必須被選擇。約束(4)則表明所生成的新聞文本的總的長度必須滿足用戶設(shè)定的長度限制。
[0047] 通過現(xiàn)有的整數(shù)線性規(guī)劃求解算法（比如分支定界法、割平面法或隱枚舉法），可以求解得到變量bP與ct的值，根據(jù)該值是否為1來確定每個(gè)知識(shí)點(diǎn)和模板的選擇。
[0048] 上述優(yōu)化算法根據(jù)不同的新聞長度限制會(huì)選擇不同的知識(shí)點(diǎn)，而模板的選擇則跟模板的長度以及模板的隨機(jī)重要性權(quán)重有關(guān)，因此即使在同一場景下，最終也可以選擇不同的知識(shí)點(diǎn)與模板用于新聞文本生成。
[0049] (3)基于篩選得到的模板進(jìn)行新聞文本生成；
[0050] 按照所選擇的每個(gè)模板進(jìn)行數(shù)據(jù)填充，得到對(duì)應(yīng)的文本句子。然后對(duì)這些句子按照一定規(guī)則進(jìn)行簡單排序，獲得最終的新聞文本。排序規(guī)則可依據(jù)不同場景而人為設(shè)定。 [0051 ]本發(fā)明還提供一種基于智能模板選擇的短新聞自動(dòng)寫稿方法的裝置，用于根據(jù)輸入知識(shí)點(diǎn)和模板庫生成多樣化新聞文本，包括以下單元:候選模板檢索單元、智能模板篩選單元、新聞文本生成單元；
[0052] 其中，候選模板檢索單元基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板的匹配與檢索，獲得每個(gè)知識(shí)點(diǎn)所對(duì)應(yīng)的所有潛在有用的模板；
[0053] 智能模板篩選單元利用整數(shù)線性規(guī)劃算法進(jìn)行知識(shí)點(diǎn)與模板的智能篩選，確定最終真正使用的文本模板；
[0054] 新聞文本生成單元?jiǎng)t基于篩選得到的模板進(jìn)行文本句子的生成，對(duì)句子進(jìn)行組合之后得到最終的新聞文本。
[0055]以上所述，僅為本發(fā)明的【具體實(shí)施方式】，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng) 涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求所界定的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種面向短新聞的機(jī)器寫稿方法，該方法通過利用優(yōu)化算法智能選擇不同的模板組合進(jìn)行新聞生成，能夠提高所生成新聞的生動(dòng)性與靈活性;其特征在于:本方法所要求的輸入為前期通過數(shù)據(jù)分析獲得的知識(shí)點(diǎn)W及人工定義的模板集合;通過數(shù)據(jù)分析，結(jié)合領(lǐng)域知識(shí)，能夠獲得多個(gè)適合在新聞中報(bào)道的知識(shí)點(diǎn)，并賦予每個(gè)知識(shí)點(diǎn)一個(gè)重要性權(quán)重;針對(duì) 每個(gè)知識(shí)點(diǎn)P，首先預(yù)先定義和整理描述該知識(shí)點(diǎn)的多個(gè)文本模板Τι(Ρ)，Τ2(Ρ)，···，Τν(ρ) (Ρ)，通過每個(gè)模板能夠生成一個(gè)不同的句子，運(yùn)些句子之間互為復(fù)述;該方法的技術(shù)方案包括:一種基于智能模板選擇的短新聞自動(dòng)寫稿方法，包括如下步驟： (1) 基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索； (2) 利用優(yōu)化算法進(jìn)行智能模板篩選，確定最終真正使用的模板； (3) 基于篩選得到的模板進(jìn)行新聞文本生成。2. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法，其特征在于:基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板檢索的步驟如下：對(duì)于輸入知識(shí)點(diǎn)集合KC中的每個(gè)知識(shí)點(diǎn)Ρ，從人工預(yù)先定義的模板庫中進(jìn)行匹配，找到相應(yīng)的多個(gè)文本模板Τι(Ρ)，Τ2(Ρ)，…，Τν(ρ)(Ρ)，每個(gè)文本模板都能用來描述該知識(shí)點(diǎn)，生成相關(guān)的文本句子;其中Ν(Ρ)表示為知識(shí)點(diǎn)Ρ匹配得到的文本模板個(gè)數(shù)；由于模板庫中已經(jīng)對(duì) 模板和知識(shí)點(diǎn)的對(duì)應(yīng)關(guān)系做了標(biāo)記，因此根據(jù)知識(shí)點(diǎn)檢索得到候選模板集合。3. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法，其特征在于:利用優(yōu)化算法進(jìn)行智能模板篩選，確定最終真正使用的模板步驟如下：將候選知識(shí)點(diǎn)和模板的篩選過程建模為整數(shù)線性規(guī)劃問題，知識(shí)點(diǎn)和模板的選擇由Ο? ι 變量所控制，要求在滿足一定約束的前提下最大化新聞所涵蓋的知識(shí)點(diǎn)權(quán)重和 W 及所采用的模板權(quán)重之和，通過分支定界法或割平面法或隱枚舉法進(jìn)行求解獲得變量值，從而確定知識(shí)點(diǎn)和模板的選擇;該方法的好處是能夠智能選擇部分或全部知識(shí)點(diǎn)，同時(shí)為每個(gè)知識(shí)點(diǎn)智能選擇唯一的模板進(jìn)行新聞生成。4. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法，其特征在于:定義輸入知識(shí) 點(diǎn)集合KC中的知識(shí)點(diǎn)Ρ對(duì)應(yīng)的重要性權(quán)重為Wp，該權(quán)重能預(yù)先由人工指定或計(jì)算獲得;對(duì)于知識(shí)點(diǎn)P對(duì)應(yīng)的模板集合1'(：。）= {1'1。），了2。），-，，了腫)。)}，每個(gè)模板1'所生成文本的長度為L(T)個(gè)漢字，且隨機(jī)為每個(gè)模板賦予一個(gè)[0，1]之間的權(quán)重值Wt;最終所生成的新聞文本的長度限制為Lmax個(gè)漢字，新聞文本的長度限制由實(shí)際需要而定，比如500個(gè)字;知識(shí)點(diǎn)P與模板T的選擇問題建模為如下整數(shù)線性規(guī)劃問題：其中：bp表示知識(shí)點(diǎn)P是否被選擇的0-1變量，而CT則表示模板T是否被選擇的0-1變量，λ 為系統(tǒng)參數(shù)，由人工根據(jù)具體情況而設(shè)定，比如可設(shè)為0.5;約束(3)表明知識(shí)點(diǎn)和模板之間的約束關(guān)系:一旦一個(gè)知識(shí)點(diǎn)被選擇，則該知識(shí)點(diǎn)對(duì)應(yīng)的一個(gè)模板必須被選擇，且只能有一個(gè)模板被選擇;相反，如果一個(gè)模板被選擇，則該模板對(duì)應(yīng)的知識(shí)點(diǎn)也必須被選擇;約束(4) 則表明所生成的新聞文本的總的長度必須滿足用戶設(shè)定的長度限制；通過現(xiàn)有的整數(shù)線性規(guī)劃求解算法（比如分支定界法或割平面法或隱枚舉法），能夠求解得到變量bp與CT的值，根據(jù)該值是否為1來確定每個(gè)知識(shí)點(diǎn)和模板的選擇；上述優(yōu)化算法根據(jù)不同的新聞長度限制會(huì)選擇不同的知識(shí)點(diǎn)，而模板的選擇則跟模板的長度W及模板的隨機(jī)重要性權(quán)重有關(guān)，因此即使在同一場景下，最終也能夠選擇不同的知識(shí)點(diǎn)與模板用于新聞文本生成。5. 根據(jù)權(quán)利要求1所述的一種面向短新聞的機(jī)器寫稿方法，其特征在于:基于篩選得到的模板進(jìn)行新聞文本生成的步驟如下：按照所選擇的每個(gè)模板進(jìn)行數(shù)據(jù)填充，得到對(duì)應(yīng)的文本句子;然后對(duì)運(yùn)些句子按照新聞文本預(yù)設(shè)規(guī)則進(jìn)行初步排序，獲得最終的新聞文本;排序規(guī)則能依據(jù)不同場景而人為設(shè) 定。6. -種基于智能模板選擇的短新聞自動(dòng)寫稿方法的裝置，其特征在于：用于根據(jù)輸入知識(shí)點(diǎn)和模板庫生成多樣化新聞文本，包括W下單元:候選模板檢索單元、智能模板篩選單元、新聞文本生成單元;候選模板檢索單元、智能模板篩選單元、新聞文本生成單元依次相連組成該裝置；其中，候選模板檢索單元基于輸入的知識(shí)點(diǎn)與模板庫進(jìn)行候選模板的匹配與檢索，獲得每個(gè)知識(shí)點(diǎn)所對(duì)應(yīng)的所有潛在有用的模板；智能模板篩選單元利用整數(shù)線性規(guī)劃算法進(jìn)行知識(shí)點(diǎn)與模板的智能篩選，確定最終真正使用的文本模板；新聞文本生成單元?jiǎng)t基于篩選得到的模板進(jìn)行文本句子的生成，對(duì)句子進(jìn)行組合之后得到最終的新聞文本。
【文檔編號(hào)】G06F17/30GK105975466SQ201510742043
【公開日】2016年9月28日
【申請(qǐng)日】2015年11月4日
【發(fā)明人】呂銳, 曹學(xué)會(huì), 萬小軍, 陳明祥, 熊立波, 鐘盈炯, 林波, 劉愛民, 儲(chǔ)達(dá)峰, 范瑛, 丁望, 瞿弋微, 王熠, 邢承磊, 石超, 張建敏
【申請(qǐng)人】新華通訊社, 北京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂銳;曹學(xué)會(huì);萬小軍;陳明祥;熊立波;鐘盈炯;林波;劉愛民;儲(chǔ)達(dá)峰;范瑛;丁望;瞿弋微;王熠;邢承磊;石超;張建敏;
技術(shù)所有人：新華通訊社;北京大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種面向短新聞的機(jī)器寫稿方法及裝置的制造方法