国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向體育比賽直播文字的體育新聞自動構(gòu)建方法及裝置的制造方法

      文檔序號:10552886閱讀:1629來源:國知局
      一種面向體育比賽直播文字的體育新聞自動構(gòu)建方法及裝置的制造方法
      【專利摘要】本發(fā)明公開了一種新穎的面向體育比賽直播文字的體育新聞自動構(gòu)建方法及裝置,涉及語言文字處理領(lǐng)域。目前體育比賽結(jié)束后對于比賽情況進(jìn)行報道的新聞都是由人工編輯的,經(jīng)濟(jì)成本高,且很難保證時效性。本發(fā)明提出基于學(xué)習(xí)排序框架,通過體育比賽直播文字自動構(gòu)建體育新聞的方法和裝置,有效提高體育新聞的時效性,降低編輯成本。其包括如下步驟:構(gòu)建針對體育直播文字的學(xué)習(xí)排序模型;應(yīng)用學(xué)習(xí)排序模型預(yù)測每個直播句子的權(quán)重;選取權(quán)重最高的句子集合構(gòu)建體育新聞。本發(fā)明適用于比賽過程中會產(chǎn)生比賽文字直播的體育比賽。
      【專利說明】
      一種面向體育比賽直播文字的體育新聞自動構(gòu)建方法及裝置
      技術(shù)領(lǐng)域
      [0001] 本發(fā)明涉及語言文字處理領(lǐng)域,特別涉及一種面向體育比賽直播文字的體育新聞 自動構(gòu)建方法及裝置。
      【背景技術(shù)】
      [0002] 據(jù)了解,面向體育比賽直播文字的體育新聞自動構(gòu)建方法鮮有成熟的應(yīng)用成果, 也很少見到相關(guān)學(xué)術(shù)成果發(fā)表在重要學(xué)術(shù)會議和期刊上。與此領(lǐng)域相關(guān)度比較大的研究成 果有Nichols等人從Twitter的狀態(tài)更新中提取熱門體育事件,Tjondronegoro等人根據(jù)體 育音視頻獲得體育運動關(guān)鍵點,以及Bouayad-Agha等研究者在2011和2012年使用預(yù)先定義 的模板構(gòu)建足球文摘的本體庫。
      [0003] 此發(fā)明涉及的體育新聞自動構(gòu)建方法,實質(zhì)是將新聞構(gòu)建歸結(jié)為對直播文本進(jìn)行 自動摘要的過程。而對于文檔自動摘要這一問題的研究現(xiàn)已相對成熟。有很多不同的方法 應(yīng)用于此,并取得了不錯的效果。單文檔摘要是由國際會議DUC和TAC定義的典型任務(wù),對于 這個任務(wù),基于抽取的方法都被大量采用?;诔槿〉姆椒ㄊ鞘紫葘ξ臋n中已有的句子進(jìn) 行排序,再從中直接抽取排序靠前的句子組成摘要。此發(fā)明的文本自動摘要過程就采用基 于抽取的方法。
      [0004] 對于單文檔摘要,一系列特征被用來對文檔中的句子進(jìn)行排序,包括詞頻,句子位 置,線索詞,特征詞和主題簽名。其中基于質(zhì)心的摘要方法一一MEAD計算每個句子的三個特 征值并線性組合來決定哪個句子更加重要。機(jī)器學(xué)習(xí)技術(shù)也被用來進(jìn)行句子排序。 M.Litvak等人提出了一種語言無關(guān)的方法來提取摘要,它使用遺傳算法對多個句子排序指 標(biāo)進(jìn)行線性優(yōu)化。T.Hirao等人運用樹形背包問題的方法解決單文檔摘要,例如從DEP-DT選 取最佳根節(jié)點子樹作為摘要。近些年基于圖的方法被更多得運用于句子排序。我們進(jìn)一步 提出利用鄰近文檔來提高基于圖的單文檔摘要效果。其他一些基于圖的摘要方法包括在異 構(gòu)圖上對句子和其他單元進(jìn)行混合排序。
      [0005] 學(xué)習(xí)排序方法是將機(jī)器學(xué)習(xí)的方式應(yīng)用到排序模型中,讓機(jī)器自動調(diào)整策略,根 據(jù)輸入的特征矩陣訓(xùn)練模型,再對測試矩陣預(yù)測排序向量?,F(xiàn)在學(xué)習(xí)排序方法主要分為 Pointwise、Pairwise和Listwiselointwise方法正如其名字一樣,是把數(shù)據(jù)當(dāng)作一個個的 點來分別進(jìn)行計算的,這種方法可以把我們的排序問題轉(zhuǎn)換成二值分類問題、回歸問題和 多值分類問題。在Pairwise方法中,所有參與排序的對象進(jìn)行兩兩配對,計算出每兩個對象 的次序,最終我們就可以獲得一個總體的排名。Listwise的輸入不再是一個個或一對對的 對象,而是一組對象列表,根據(jù)排序函數(shù)計算出每一個對象列表的排序向量的得分,得分最 高的排序向量即為輸出。
      [0006] 概括來說,目前自動構(gòu)建體育新聞的方法還主要停留在根據(jù)體育數(shù)據(jù),套用模板, 生成較為生硬的簡短摘要。本發(fā)明則提出了一種新的解決途徑,從體育比賽直播文字中抽 取重要句子構(gòu)建體育新聞。體育比賽直播文字是在體育比賽直播過程中,由解說員生動的 語言變?yōu)榈奈淖?,保證了由此生成的新聞的生動性和多樣性。句子抽取過程采用現(xiàn)今較先 進(jìn)的有監(jiān)督學(xué)習(xí)排序框架,并根據(jù)直播文字和新聞生成需求,提取恰當(dāng)?shù)奈谋咎卣鳌?br>
      【發(fā)明內(nèi)容】

      [0007] 本發(fā)明提供一種面向體育比賽直播文字的體育新聞自動構(gòu)建方法,該方法利用學(xué) 習(xí)排序模型,對體育比賽直播文字的句子重要性進(jìn)行預(yù)測,并且選取重要性高的句子構(gòu)建 體育新聞,能夠有效地保證新聞的信息重要性、語言生動性。
      [0008] 本發(fā)明采用的技術(shù)方案包括:一種基于學(xué)習(xí)排序模型,面向體育比賽直播文字的 體育新聞自動構(gòu)建方法,包括如下步驟:
      [0009] (1)面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建;
      [0010] (2)根據(jù)學(xué)習(xí)排序模型,預(yù)測直播文字句子重要性;
      [0011] (3)基于直播文字句子重要性進(jìn)行新聞構(gòu)建;
      [0012] 進(jìn)一步,面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建的步驟如下:
      [0013] 首先爬取大量體育比賽直播文字和對應(yīng)比賽的新聞,對其進(jìn)行簡單的預(yù)處理,包 括去除噪聲,分詞等。然后將這些數(shù)據(jù)作為訓(xùn)練集,用于構(gòu)建學(xué)習(xí)排序模型。觀察訓(xùn)練集直 播文字,提取代表其重要性的有效特征。應(yīng)用有監(jiān)督的學(xué)習(xí)排序框架預(yù)測直播文字的句子 重要性,需要將直播文字轉(zhuǎn)化為向量的形式。具體地,對于每個句子 81,將其轉(zhuǎn)化為(X1,yl) 的形式。其中X1代表句子 81的特征向量,yl代表句子81的目標(biāo)重要性。在此發(fā)明中,使用句子 S1與這場體育比賽對應(yīng)的新聞報道的最大句子級別吻合程度作為目標(biāo)重要性。句子級別 吻合程度用R0UGE-2F值來度量。
      [0014] 下面以足球比賽直播文字為例介紹直播文字的具體特征。其中1-5維為文檔摘要 任務(wù)使用的傳統(tǒng)特征,6-9組為通過觀察足球比賽直播文字的語言和形式特點,為其設(shè)計 的。
      [0015] 1)句子位置信息:表示在候選句子集合中的位置。假設(shè)在直播文字中有n個句子, 對于句子Si,它的這一維特征通過
      計算;
      [0016] 2)句子長度:表示句子Sl去掉停用詞之后的長度;
      [0017] 3)停用詞個數(shù):表示句子81中所包含的停用詞的個數(shù),句子包含的停用詞過多可 以間接反應(yīng)其重要性不夠高;
      [0018] 4)詞語權(quán)重和:計算句子Si中詞語TF-IDF值的和;
      [0019] 5)相鄰句子相似度:計算每個句子Sl和它相鄰句子的余弦相似度。具體地,計算 Sl 與其前后各N個相鄰句子的相似度,N可設(shè)為1、2;
      [0020] 6)比賽關(guān)鍵點代表詞:體現(xiàn)比賽關(guān)鍵點的詞語的個數(shù),常??梢苑从尺@個句子的 重要性。例如句子中包含"破門"和"紅牌"這樣的字樣說明這句話描述的很有可能是比賽的 關(guān)鍵點,重要性會變高。這一組特征包含26維,其中一維表示包含有多少個關(guān)鍵詞語,其他 25維代表每個有關(guān)于足球的關(guān)鍵詞語在這句話中是否出現(xiàn),出現(xiàn)則這一維為"1",沒出現(xiàn)為 "0,,;
      [0021] 如圖1所示,在足球比賽的直播文字中會包含有文字所對應(yīng)的時間信息、比分信 息,這些信息提供更多的有效特征。
      [0022] 7)時間信息特征:體現(xiàn)句子所在的比賽時段,如"上半場"還是"下半場",所在的具 體時間;
      [0023] 8)比分信息特征:體現(xiàn)句子所在的時刻是否有比分變化,或是在比分變化的小范 圍內(nèi),比賽此時為平局或者有比分差別;
      [0024] 9)球員受歡迎程度:此組特征包含兩維,一維代表句子中包含的球員的個數(shù),一維 代表所有球員的受歡迎程度之和。此受歡迎程度的評估可以利用在搜索引擎中搜索球員姓 名得到的新聞數(shù)作為指標(biāo)。
      [0025] 根據(jù)訓(xùn)練集句子的特征向量矩陣和對應(yīng)的目標(biāo)重要性,就可以使用學(xué)習(xí)排序算法 進(jìn)行訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型。此學(xué)習(xí)排序模型可以用于預(yù)測排 序向量。
      [0026]進(jìn)一步,根據(jù)學(xué)習(xí)排序模型,預(yù)測直播文字句子重要性的步驟如下:
      [0027] 對于一篇新的體育比賽直播文字,首先需要提取上一步提到的各個特征,將直播 的每一個句子Sl轉(zhuǎn)化為特征向量&,其不同的比賽種類,特征設(shè)置上可以進(jìn)行簡單的改動。
      [0028] 然后應(yīng)用上一步得到的學(xué)習(xí)排序模型,根據(jù)直播的特征向量矩陣對句子的排序向 量進(jìn)行預(yù)測。排序向量中每個句子所對應(yīng)的數(shù)值可以當(dāng)作句子的重要性。經(jīng)過預(yù)測可以得 到直播文字Si的句子重要性Wi。
      [0029] 進(jìn)一步,基于直播文字句子重要性進(jìn)行新聞構(gòu)建的步驟如下:
      [0030] 根據(jù)上一步得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子間距離進(jìn)行去冗余的算法進(jìn) 行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止?;诰渥娱g的距離去冗余進(jìn)行選取句子的算法 具體如下:
      [0031] 假設(shè)表示選入新聞中的句子集合,T2表示未選入新聞中的句子集合。
      [0032] 第一步:選取T2句子集合中重要性分?jǐn)?shù)最高的句子Si,將Si加入到h中并將其從T 2 中刪除;
      [0033] 第二步:將!^中所有的剩余句子&的重要性分?jǐn)?shù)根據(jù)以下公式進(jìn)行懲罰;
      [0035] 其中Wj和Wi表示句子Sj和Si的重要性分?jǐn)?shù),Disj,i是句子Sj和Si之間的距離,而入表 示需要調(diào)節(jié)的參數(shù)。
      [0036] 第三步:若^中句子的總字?jǐn)?shù)大于或者等于新聞所需字?jǐn)?shù),則進(jìn)行第四步,否則返 回第一步。
      [0037] 第四步:將T沖的句子按照原先直播文字中出現(xiàn)的順序排序,構(gòu)建出新聞。
      [0038]以上完成了體育新聞自動構(gòu)建的過程。
      [0039] 本發(fā)明提供一種面向體育比賽直播文字的體育新聞自動構(gòu)建裝置,該裝置利用學(xué) 習(xí)排序模型,對體育比賽直播文字的句子重要性進(jìn)行預(yù)測,并且選取重要性高的句子構(gòu)建 體育新聞,包括以下單元:學(xué)習(xí)排序模型構(gòu)建單元、句子重要性預(yù)測單元、新聞文本生成單 元;
      [0040] 其中學(xué)習(xí)排序模型構(gòu)建單元通過搭建體育新聞和直播文字?jǐn)?shù)據(jù)庫,并且處理,提 取特征,有監(jiān)督學(xué)習(xí)訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型;
      [0041] 句子重要性預(yù)測單元首先提取體育直播文字的特征,然后應(yīng)用學(xué)習(xí)排序模型對直 播句子的重要性排序向量進(jìn)行預(yù)測;
      [0042]新聞文本生成單元根據(jù)句子重要性預(yù)測單元得到的句子的重要性分?jǐn)?shù),應(yīng)用基于 句子間距離進(jìn)行去冗余的算法進(jìn)行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止,完成新聞構(gòu)建。
      【附圖說明】
      [0043]圖1.足球比賽直播文字的示例
      [0044] 圖2.-種面向體育比賽直播文字的體育新聞自動構(gòu)建方法流程圖
      【具體實施方式】
      [0045] 下面結(jié)合實施例和附圖進(jìn)一步闡述本發(fā)明所述的技術(shù)方案:
      [0046] 如圖2所示,一種基于學(xué)習(xí)排序模型,面向體育比賽直播文字的體育新聞自動構(gòu)建 方法,包括如下步驟:
      [0047] (1)面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建;
      [0048]首先爬取大量體育比賽直播文字和對應(yīng)比賽的新聞,對其進(jìn)行簡單的預(yù)處理,包 括去除噪聲,分詞等。然后將這些數(shù)據(jù)作為訓(xùn)練集,用于構(gòu)建學(xué)習(xí)排序模型。觀察訓(xùn)練集直 播文字,提取代表其重要性的有效特征。應(yīng)用有監(jiān)督的學(xué)習(xí)排序框架預(yù)測直播文字的句子 重要性,需要將直播文字轉(zhuǎn)化為向量的形式。具體地,對于每個句子 81,將其轉(zhuǎn)化為(Xl,yi) 的形式。其中Xl代表句子 81的特征向量,yi代表句子81的目標(biāo)重要性。在此發(fā)明中,使用句子 Sl與這場體育比賽對應(yīng)的新聞報道的最大句子級別吻合程度作為目標(biāo)重要性。句子級別 吻合程度用R0UGE-2F值來度量。
      [0049] 下面以足球比賽直播文字為例介紹直播文字的具體特征。其中1-5維為文檔摘要 任務(wù)使用的傳統(tǒng)特征,6-9組為通過觀察足球比賽直播文字的語言和形式特點,為其設(shè)計 的。
      [0050] 1)句子位置信息:表示在候選句子集合中的位置。假設(shè)在直播文字中有n個句子, 對于句子Si,它的這一維特征通過
      計算;
      [0051] 2)句子長度:表示句子Sl去掉停用詞之后的長度;
      [0052] 3)停用詞個數(shù):表示句子81中所包含的停用詞的個數(shù),句子包含的停用詞過多可 以間接反應(yīng)其重要性不夠高;
      [0053] 4)詞語權(quán)重和:計算句子si中詞語TF-IDF值的和;
      [0054] 5)相鄰句子相似度:計算每個句子Sl和它相鄰句子的余弦相似度。具體地,計算 Sl 與其前后各N個相鄰句子的相似度,N可設(shè)為1、2;
      [0055] 6)比賽關(guān)鍵點代表詞:體現(xiàn)比賽關(guān)鍵點的詞語的個數(shù),常常可以反映這個句子的 重要性。例如句子中包含"破門"和"紅牌"這樣的字樣說明這句話描述的很有可能是比賽的 關(guān)鍵點,重要性會變高。這一組特征包含26維,其中一維表示包含有多少個關(guān)鍵詞語,其他 25維代表每個有關(guān)于足球的關(guān)鍵詞語在這句話中是否出現(xiàn),出現(xiàn)則這一維為"1",沒出現(xiàn)為 "0,,;
      [0056] 如圖1所示,在足球比賽的直播文字中會包含有文字所對應(yīng)的時間信息、比分信 息,這些信息提供更多的有效特征。
      [0057] 7)時間信息特征:體現(xiàn)句子所在的比賽時段,如"上半場"還是"下半場",所在的具 體時間;
      [0058] 8)比分信息特征:體現(xiàn)句子所在的時刻是否有比分變化,或是在比分變化的小范 圍內(nèi),比賽此時為平局或者有比分差別;
      [0059] 9)球員受歡迎程度:此組特征包含兩維,一維代表句子中包含的球員的個數(shù),一維 代表所有球員的受歡迎程度之和。此受歡迎程度的評估可以利用在搜索引擎中搜索球員姓 名得到的新聞數(shù)作為指標(biāo)。
      [0060] 根據(jù)訓(xùn)練集句子的特征向量矩陣和對應(yīng)的目標(biāo)重要性,就可以使用學(xué)習(xí)排序算法 進(jìn)行訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型。此學(xué)習(xí)排序模型可以用于預(yù)測排 序向量。
      [0061 ] (2)根據(jù)學(xué)習(xí)排序模型,預(yù)測直播文字句子重要性;
      [0062] 對于一篇新的體育比賽直播文字,首先需要提取上一步提到的各個特征,將直播 的每一個句子Sl轉(zhuǎn)化為特征向量&,其不同的比賽種類,特征設(shè)置上可以進(jìn)行簡單的改動。
      [0063] 然后應(yīng)用上一步得到的學(xué)習(xí)排序模型,根據(jù)直播的特征向量矩陣對句子的排序向 量進(jìn)行預(yù)測。排序向量中每個句子所對應(yīng)的數(shù)值可以當(dāng)作句子的重要性。經(jīng)過預(yù)測可以得 到直播文字Si的句子重要性Wi。
      [0064] (3)基于直播文字句子重要性進(jìn)行新聞構(gòu)建;
      [0065]根據(jù)上一步得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子間距離進(jìn)行去冗余的算法進(jìn) 行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止?;诰渥娱g的距離去冗余進(jìn)行選取句子的算法 具體如下:
      [0066] 假設(shè)表示選入新聞中的句子集合,T2表示未選入新聞中的句子集合。
      [0067] 第一步:選取T2句子集合中重要性分?jǐn)?shù)最高的句子Si,將Si加入到h中并將其從T 2 中刪除;
      [0068] 第二步:將!^中所有的剩余句子&的重要性分?jǐn)?shù)根據(jù)以下公式進(jìn)行懲罰;
      [0070] 其中Wj和Wi表示句子Sj和Si的重要性分?jǐn)?shù),Disj,i是句子Sj和Si之間的距離,而入表 示需要調(diào)節(jié)的參數(shù)。
      [0071] 第三步:若^中句子的總字?jǐn)?shù)大于或者等于新聞所需字?jǐn)?shù),則進(jìn)行第四步,否則返 回第一步。
      [0072] 第四步:將T沖的句子按照原先直播文字中出現(xiàn)的順序排序,構(gòu)建出新聞。
      [0073] 以上完成了體育新聞自動構(gòu)建的過程。
      [0074]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng) 涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求所界定的保護(hù)范 圍為準(zhǔn)。
      【主權(quán)項】
      1. 一種面向體育比賽直播文字的體育新聞自動構(gòu)建方法,其特征在于,該方法通過構(gòu) 建學(xué)習(xí)排序模型并提取體育比賽直播文字中的有效特征,有監(jiān)督得預(yù)測直播句子的重要 性,并選取重要性高的句子集合構(gòu)建體育新聞;該方法方便快捷,有效節(jié)省人力物力。2. -種面向體育比賽直播文字的體育新聞自動構(gòu)建方法,其特征在于包括如下步驟: (1) 面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建; (2) 根據(jù)學(xué)習(xí)排序模型,預(yù)測直播文字句子重要性; (3) 基于直播文字句子重要性進(jìn)行新聞構(gòu)建。3. 根據(jù)權(quán)利要求2所述的面向體育比賽直播文字的體育新聞自動構(gòu)建方法,其特征在 于,面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建,其具體做法如下: 首先爬取大量體育比賽直播文字和對應(yīng)比賽的新聞,對其進(jìn)行簡單的預(yù)處理,包括去 除噪聲,分詞等;然后將運些數(shù)據(jù)作為訓(xùn)練集,用于構(gòu)建學(xué)習(xí)排序模型。觀察訓(xùn)練集直播文 字,提取代表其重要性的有效特征;應(yīng)用有監(jiān)督的學(xué)習(xí)排序框架預(yù)測直播文字的句子重要 性,需要將直播文字轉(zhuǎn)化為向量的形式;具體地,對于每個句子Si,將其轉(zhuǎn)化為(xi,yi)的形 式;其中Xi代表句子Si的特征向量,yi代表句子Si的目標(biāo)重要性;在此發(fā)明中,使用句子Si與 運場體育比賽對應(yīng)的新聞報道的最大句子級別吻合程度作為目標(biāo)重要性yi;句子級別吻合 程度用R0UGE-2 F值來度量。 下面W足球比賽直播文字為例介紹直播文字的具體特征;其中1-5維為文檔摘要任務(wù) 使用的傳統(tǒng)特征,6-9組為通過觀察足球比賽直播文字的語言和形式特點,為其設(shè)計的。1) 句子位置信息:表示護(hù)千集合中的位置;假設(shè)在直播文字中有n個句子,對于 句子Si,它的運一維特征通i3 ^算; 2) 句子長度:表示句子Si去掉停用詞之后的長度; 3) 停用詞個數(shù):表示句子Si中所包含的停用詞的個數(shù),句子包含的停用詞過多可W間接 反應(yīng)其重要性不夠高; 4) 詞語權(quán)重和:計算句子Si中詞語TF-IDF值的和; 5) 相鄰句子相似度:計算每個句子Si和它相鄰句子的余弦相似度;具體地,計算Si與其 前后各N個相鄰句子的相似度,N可設(shè)為1、2; 6) 比賽關(guān)鍵點代表詞:體現(xiàn)比賽關(guān)鍵點的詞語的個數(shù),常常可W反映運個句子的重要 性;例如句子中包含"破1'了'和"紅牌"運樣的字樣說明運句話描述的很有可能是比賽的關(guān)鍵 點,重要性會變高;運一組特征包含26維,其中一維表示包含有多少個關(guān)鍵詞語,其他25維 代表每個有關(guān)于足球的關(guān)鍵詞語在運句話中是否出現(xiàn),出現(xiàn)則運一維為"r,沒出現(xiàn)為"0"; 7) 時間信息特征:體現(xiàn)句子所在的比賽時段,如"上半場"還是"下半場",所在的具體時 間; 8) 比分信息特征:體現(xiàn)句子所在的時刻是否有比分變化,或是在比分變化的小范圍內(nèi), 比賽此時為平局或者有比分差別; 9) 球員受歡迎程度:此組特征包含兩維,一維代表句子中包含的球員的個數(shù),一維代表 所有球員的受歡迎程度之和;此受歡迎程度的評估可W利用在捜索引擎中捜索球員姓名得 到的新聞數(shù)作為指標(biāo); 根據(jù)訓(xùn)練集句子的特征向量矩陣和對應(yīng)的目標(biāo)重要性,就可W使用學(xué)習(xí)排序算法進(jìn)行 訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型;此學(xué)習(xí)排序模型可W用于預(yù)測排序向 量。4. 根據(jù)權(quán)利要求2所述的面向體育比賽直播文字的體育新聞自動構(gòu)建方法,其特征在 于,根據(jù)學(xué)習(xí)排序模型,預(yù)測直播文字句子重要性,其具體做法如下: 對于一篇新的體育比賽直播文字,首先需要提取上一步提到的各個特征,將直播的每 一個句子Si轉(zhuǎn)化為特征向量XI,其不同的比賽種類,特征設(shè)置上可W進(jìn)行簡單的改動; 然后應(yīng)用上一步得到的學(xué)習(xí)排序模型,根據(jù)直播的特征向量矩陣對句子的排序向量進(jìn) 行預(yù)測;排序向量中每個句子所對應(yīng)的數(shù)值可W當(dāng)作句子的重要性;經(jīng)過預(yù)測可W得到直 播文字Si的句子重要性Wio5. 根據(jù)權(quán)利要求2所述的面向體育比賽直播文字的體育新聞自動構(gòu)建方法,其特征在 于,基于直播文字句子重要性進(jìn)行新聞構(gòu)建,其具體做法如下: 根據(jù)上一步得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子間距離進(jìn)行去冗余的算法進(jìn)行句 子的選取,直到達(dá)到所需的字?jǐn)?shù)為止;基于句子間的距離去冗余進(jìn)行選取句子的算法具體 如下: 假設(shè)Tl表示選入新聞中的句子集合,T2表示未選入新聞中的句子集合; 第一步:選取T2句子集合中重要性分?jǐn)?shù)最高的句子Si,將Si加入到Tl中并將其從T2中刪 除; 第二步:將T2中所有的剩余巧亜化曰下公式進(jìn)行懲罰;其中Wj和Wi表示句子Sj和Si的重要性分?jǐn)?shù),DiSj, i是句子Sj和Si之間的距離,而A表示需 要調(diào)節(jié)的參數(shù); 第=步:若Tl中句子的總字?jǐn)?shù)大于或者等于新聞所需字?jǐn)?shù),則進(jìn)行第四步,否則返回第 一步; 第四步:將Tl中的句子按照原先直播文字中出現(xiàn)的順序排序,構(gòu)建出新聞; W上完成了體育新聞自動構(gòu)建的過程。6. -種面向體育比賽直播文字的體育新聞自動構(gòu)建裝置,利用學(xué)習(xí)排序模型,對體育 比賽直播文字的句子重要性進(jìn)行預(yù)測,并且選取重要性高的句子構(gòu)建體育新聞,其特征在 于包括W下單元:學(xué)習(xí)排序模型構(gòu)建單元、句子重要性預(yù)測單元、新聞文本生成單元; 其中學(xué)習(xí)排序模型構(gòu)建單元通過搭建體育新聞和直播文字?jǐn)?shù)據(jù)庫,并且處理,提取特 征,有監(jiān)督學(xué)習(xí)訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型; 句子重要性預(yù)測單元首先提取體育直播文字的特征,然后應(yīng)用學(xué)習(xí)排序模型對直播句 子的重要性排序向量進(jìn)行預(yù)測; 新聞文本生成單元根據(jù)句子重要性預(yù)測單元得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子 間距離進(jìn)行去冗余的算法進(jìn)行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止,完成新聞的構(gòu)建。
      【文檔編號】G06F17/27GK105912526SQ201610235671
      【公開日】2016年8月31日
      【申請日】2016年4月15日
      【發(fā)明人】張建敏, 萬小軍, 姚金戈
      【申請人】北京大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1