国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種細(xì)粒度電臺(tái)音頻內(nèi)容個(gè)性化組織推薦方法與流程

      文檔序號(hào):11732127閱讀:369來源:國(guó)知局
      一種細(xì)粒度電臺(tái)音頻內(nèi)容個(gè)性化組織推薦方法與流程
      本發(fā)明專利涉及一種細(xì)粒度的電臺(tái)音頻內(nèi)容個(gè)性化組織推薦方法,依據(jù)語義將電臺(tái)的音頻節(jié)目自動(dòng)切分標(biāo)注,并基于互聯(lián)網(wǎng)大數(shù)據(jù)挖掘用戶喜好,自動(dòng)編排個(gè)性化節(jié)目單以及進(jìn)行實(shí)時(shí)節(jié)目推送,涉及音頻處理、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析、推薦系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域。
      背景技術(shù)
      :廣播的優(yōu)勢(shì)在于聲音,用聲音傳遞信息,用聲音傳遞價(jià)值。傳統(tǒng)廣播電臺(tái)通過采、編、制作的工作模式,利用無線電波向一定區(qū)域的受眾傳送聲音節(jié)目;受限于傳播機(jī)制,在傳統(tǒng)媒體轉(zhuǎn)型的巨大浪潮中,受到了前所未有的沖擊。然而,借助大數(shù)據(jù)、新媒體技術(shù),又給廣播電臺(tái)提供了前所未有的空間與潛力。就目前國(guó)內(nèi)較熱門的手機(jī)電臺(tái)app而言:蜻蜓fm,打破了地域限制,通過新聞、音樂、經(jīng)濟(jì)等不同風(fēng)格的分類,用戶可以通過手機(jī)收聽大陸、香港、臺(tái)灣等幾乎所有主要電臺(tái),但就其節(jié)目?jī)?nèi)容而言,僅僅是各電臺(tái)的聚合,并沒有內(nèi)容上的創(chuàng)新;考拉fm,在線電臺(tái)按照不同方式分類,如類型(新聞/搞笑/相聲等)、藝人(周杰倫/孫燕姿等)、流派(民謠/校園等),可以根據(jù)用戶的喜好自動(dòng)編排推薦節(jié)目,但節(jié)目?jī)?nèi)容并非來自傳統(tǒng)廣播臺(tái),而多是網(wǎng)絡(luò)播客;豆瓣fm,外觀簡(jiǎn)潔,用戶互操作簡(jiǎn)單,但該電臺(tái)的播放源為音樂,并非廣播節(jié)目。而部分國(guó)內(nèi)傳統(tǒng)電臺(tái)提供互聯(lián)網(wǎng)或手機(jī)廣播,但大多數(shù)是直接將傳統(tǒng)電臺(tái)am/fm的節(jié)目?jī)?nèi)容平移到互聯(lián)網(wǎng)和手機(jī)上。目前電臺(tái)在制作節(jié)目或錄制直播節(jié)目時(shí),通常一段獨(dú)立的音頻長(zhǎng)度較大,內(nèi)容標(biāo)記和查找極為不便。例如一個(gè)時(shí)長(zhǎng)30分鐘的新聞節(jié)目,是由十幾條獨(dú)立的新聞組成,類型包括國(guó)內(nèi)新聞、國(guó)際新聞、體育新聞、社會(huì)新聞、娛樂新聞等等,然而想為用戶推薦一段有關(guān)于“cba總決賽”的體育新聞,則很難查找到精確的音頻內(nèi)容段落。使用人工對(duì)音頻打散標(biāo)注的方式耗時(shí)耗力,限制了音頻媒體資產(chǎn)的重組利用。同時(shí),現(xiàn)有的手機(jī)音頻電臺(tái)app雖然各有側(cè)重,但用戶的體驗(yàn)還僅限于:收聽同一頻道的同類節(jié)目,簡(jiǎn)單連播同主題節(jié)目,或者電臺(tái)的實(shí)時(shí)直播等。如何在節(jié)目單編排上面,既保留傳統(tǒng)廣播節(jié)目的形式,又能針對(duì)不同用戶的個(gè)性化需求,在不同的時(shí)間,為用戶播放用戶該時(shí)段感興趣的節(jié)目?jī)?nèi)容或片段,即結(jié)合現(xiàn)有app的長(zhǎng)處,并體現(xiàn)傳統(tǒng)廣播電臺(tái)節(jié)目的優(yōu)勢(shì),盤活珍貴的用戶數(shù)據(jù),設(shè)置切實(shí)合理的用戶興趣采集方式及用戶行為建模方式,并最終體現(xiàn)在節(jié)目單編排組織上面,亟待研究解決。技術(shù)實(shí)現(xiàn)要素:本發(fā)明給出一種將傳統(tǒng)廣播音頻節(jié)目按語義自動(dòng)切分并標(biāo)注的算法過程,并給出基于互聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)行個(gè)性化內(nèi)容推薦的技術(shù)方案,從而實(shí)現(xiàn)細(xì)粒度的音頻內(nèi)容個(gè)性化組織推薦方法。本發(fā)明綜合考慮了冷啟動(dòng)問題、結(jié)合用戶收聽時(shí)間的節(jié)目單組織生成、實(shí)時(shí)節(jié)目切換以及實(shí)時(shí)推送節(jié)目等因素,創(chuàng)新一種廣播業(yè)務(wù)模式,改變當(dāng)下電臺(tái)地將fm直播移植到互聯(lián)網(wǎng)流媒體播出的簡(jiǎn)單模式,從受眾用戶角度而言,滿足了用戶在恰當(dāng)?shù)臅r(shí)間收聽到自己感興趣節(jié)目額內(nèi)容。本發(fā)明首先給出一種對(duì)給定語音類節(jié)目音頻分析自動(dòng)切分標(biāo)注的技術(shù)方案。本發(fā)明綜合語音類節(jié)目的特點(diǎn)以及音頻的特征規(guī)律,采用基于閾值的端點(diǎn)檢測(cè)方法、svm分類器以及說話人分割聚類的技術(shù)方案進(jìn)行自動(dòng)切分,并通過文本分析實(shí)現(xiàn)相似內(nèi)容的聚類以及標(biāo)注。該技術(shù)方案系統(tǒng)框圖如附圖1所示。系統(tǒng)將音頻首先經(jīng)過端點(diǎn)檢測(cè),找到靜音段。然后通過svm把音頻分為男性聲音、女性聲音、現(xiàn)場(chǎng)報(bào)道(嘉賓采訪)、噪聲、音樂、靜音六種不同的類別。再通過說話人分割聚類技術(shù)將男性聲音、女性聲音、現(xiàn)場(chǎng)報(bào)道(嘉賓采訪)進(jìn)行分割聚類。然后對(duì)每個(gè)說話人的內(nèi)容進(jìn)行語音識(shí)別,將識(shí)別的結(jié)果進(jìn)行文本分析,對(duì)內(nèi)容相似的說話人段進(jìn)行合并,這一段就是具有具體意義的一段。最后通過文本分析對(duì)段進(jìn)行標(biāo)注。本發(fā)明的訓(xùn)練數(shù)據(jù)均為電臺(tái)實(shí)際播出的音頻,標(biāo)注為專業(yè)人員進(jìn)行標(biāo)注。首先,對(duì)音頻進(jìn)行分幀,分幀可使用的窗函數(shù)有矩形窗、海寧窗、漢明窗。第二步,進(jìn)行預(yù)處理,消除趨勢(shì)項(xiàng)和直流分量,在采集語音信號(hào)數(shù)據(jù)的過程中,由于測(cè)試系統(tǒng)的某些原因在時(shí)間序列中會(huì)產(chǎn)生的一個(gè)線性的或者慢變的趨勢(shì)誤差,例如放大器隨溫度變化產(chǎn)生的零漂移,傳聲器低頻性能的不穩(wěn)定或傳聲器周圍的環(huán)境干擾。,總之使語音信號(hào)的零線偏離基線,甚至偏離基線的大小還會(huì)隨時(shí)間變化。零線隨時(shí)間的偏離極限被稱為信號(hào)的趨勢(shì)項(xiàng)。趨勢(shì)項(xiàng)誤差的存在,會(huì)使相關(guān)函數(shù)、功率譜函數(shù)在處理計(jì)算中出現(xiàn)變形,甚至可能使低頻段的譜估計(jì)完全失去真實(shí)性和正確性,所以必須去除。第三步,進(jìn)行降噪,由于廣播音頻的噪聲大多為外出采訪的噪音,所以本發(fā)明使用多窗譜估計(jì)的改進(jìn)譜減法進(jìn)行新聞音頻的降噪。第四步,進(jìn)行預(yù)加重,聲門脈沖的頻率響應(yīng)曲線接近于一個(gè)二階低通濾波器,而口腔的輻射相應(yīng)也接近于一個(gè)一階高通濾波器。預(yù)加重的目的是為了補(bǔ)償高頻分量的損失,提升高頻分量。第五步,然后進(jìn)行特征提取,特征提取是基于幀處理的。第六步,采用端點(diǎn)檢測(cè)方法檢測(cè)出語音的端點(diǎn),從包含語音的一段信號(hào)中確定出語音的起始點(diǎn)和結(jié)束點(diǎn)的位置。通過端點(diǎn)檢測(cè),把音頻切分成一個(gè)個(gè)句子。本發(fā)明中端點(diǎn)檢測(cè)中的閾值選取要較大,目的為快速找到句子之間的停頓點(diǎn)。第七步,經(jīng)過端點(diǎn)檢測(cè)的音頻首先經(jīng)過svm1,將幀分為語音/非語音/靜音,對(duì)語音幀通過svm1分成純語音幀以及帶噪語音幀,對(duì)純語音幀再通過svm3分為男聲/女聲。對(duì)非語音幀通過svm4分為音樂以及噪聲。第八步,對(duì)純?nèi)寺暦蛛x出的男聲/女聲以及現(xiàn)場(chǎng)報(bào)道(帶噪語音)通過說話人分割與聚類技術(shù),將說話人相同的順序音頻段進(jìn)行合并。分析出最多音頻段的男性聲音和女性聲音,即為男主持人和女主持人。第九步,對(duì)分離完成的說話人段進(jìn)行語音識(shí)別并存儲(chǔ)。最后,構(gòu)建廣播語義網(wǎng),使用文本分析技術(shù)對(duì)相鄰的說話人段進(jìn)行分析處理,對(duì)有相似語義的說話人段進(jìn)行合并并提取摘要進(jìn)行標(biāo)注。該技術(shù)方案的優(yōu)點(diǎn)在于(1)可以快速對(duì)語音類節(jié)目音頻進(jìn)行基于語義的自動(dòng)切分;(2)構(gòu)建廣播語義網(wǎng),可提高文本分析精準(zhǔn)度(3)對(duì)于細(xì)粒度的音頻內(nèi)容個(gè)性化組織推薦起到關(guān)鍵性作用。本發(fā)明中個(gè)性化節(jié)目組織推薦系統(tǒng)的節(jié)目推薦方法分為四大類:(1)提出一種解決冷啟動(dòng)的新用戶節(jié)目推薦方法:采集登錄用戶的新浪微博內(nèi)容構(gòu)建“博文內(nèi)容-興趣主題-節(jié)目”模型,并結(jié)合注冊(cè)信息進(jìn)行用戶畫像,生成新用戶的節(jié)目單;(2)提出一種結(jié)合時(shí)間上下文的個(gè)性化節(jié)目單推薦生成方法:采集電臺(tái)用戶的顯式和隱式行為數(shù)據(jù)構(gòu)建“用戶-時(shí)間上下文-節(jié)目偏好”模型和“用戶-節(jié)目-評(píng)分矩陣”模型,結(jié)合時(shí)間上下文和基于物品的協(xié)同過濾算法進(jìn)行個(gè)性化節(jié)目單生成;(3)實(shí)時(shí)節(jié)目切換功能:對(duì)正在收聽的節(jié)目提供“換一換”機(jī)制,根據(jù)用戶興趣進(jìn)行實(shí)時(shí)節(jié)目切換;(4)節(jié)目實(shí)時(shí)推送功能:利用storm技術(shù)實(shí)現(xiàn)基于在線節(jié)目收聽量等進(jìn)行實(shí)時(shí)節(jié)目推送提醒。進(jìn)一步的,方法(1)為解決新用戶的冷啟動(dòng)問題,需要建立如下兩種用戶模型:(1.1)“博文內(nèi)容-興趣主題-節(jié)目”模型;(1.2)基于注冊(cè)信息的用戶初始畫像模型。更進(jìn)一步的,為構(gòu)建(1.1)中的用戶模型,步驟如下:(1.1.1)用戶選擇社交賬號(hào)登錄方式,輸入新浪微博賬號(hào)密碼進(jìn)行認(rèn)證并授權(quán)登錄;(1.1.2)調(diào)用新浪微博的用戶接口api獲取該用戶的微博uid,該uid對(duì)于微博用戶唯一;(1.1.3)利用微博用戶的uid從http://www.weibo.cn網(wǎng)站上爬取該用戶的微博博文內(nèi)容,經(jīng)預(yù)處理后,保存在以u(píng)id命名的文件中;(1.1.4)對(duì)(1.1.3)處理后的文件內(nèi)容分條調(diào)用騰訊文智的文本分類api,獲取內(nèi)容的主題分類。對(duì)所有微博內(nèi)容的興趣主題進(jìn)行過濾后匯總,以[主題:次數(shù)]的形式標(biāo)識(shí)該用戶該興趣主題的偏好值。更進(jìn)一步的,為構(gòu)建(1.2)中的基于注冊(cè)信息的用戶初始畫像模型,首先需要確定系統(tǒng)需要用戶填寫的注冊(cè)信息包括哪些,在該個(gè)性化電臺(tái)系統(tǒng)中,為了能夠獲取到用戶對(duì)節(jié)目類型的顯式偏好,以及通過用戶信息進(jìn)行用戶群體聚類,需要填寫的注冊(cè)信息包括:選擇偏好收聽的節(jié)目類型,用戶的性別,年齡和職業(yè)類型,共四部分。進(jìn)一步的,方法(2)結(jié)合時(shí)間上下文的個(gè)性化節(jié)目單推薦生成方法,包括如下幾個(gè)模塊:(2.1)電臺(tái)用戶顯式和隱式行為數(shù)據(jù)的采集;(2.2)“用戶-時(shí)間上下文-節(jié)目偏好”模型的構(gòu)建;(2.3)“用戶-節(jié)目-評(píng)分矩陣”模型的構(gòu)建;(2.4)結(jié)合時(shí)間上下文和基于物品的協(xié)同過濾算法產(chǎn)生用戶的個(gè)性化節(jié)目單。更進(jìn)一步的,模塊(2.1)要采集的顯式和隱式行為包括如下內(nèi)容:(2.1.1)顯式行為:用戶對(duì)節(jié)目的操作信息,包括收藏、評(píng)分(1顆星到5顆星)、分享;(2.1.2)隱式行為:收聽時(shí)長(zhǎng)(用戶id,節(jié)目id,收聽開始時(shí)間,收聽結(jié)束時(shí)間),收聽次數(shù)(用戶id,節(jié)目id,收聽次數(shù))。更進(jìn)一步的,模塊(2.2)“用戶-時(shí)間上下文-節(jié)目偏好”模型的構(gòu)建步驟如下:(2.2.1)采集用戶收聽的隱式行為,收集指標(biāo)主要是某用戶u對(duì)某節(jié)目p的收聽時(shí)長(zhǎng)。對(duì)于某用戶u對(duì)于某節(jié)目p的某次收聽行為表示為:{(u,p,start_time,end_time,id,no.),num=1,2,......}(1)其中id標(biāo)識(shí)表達(dá)式(1)屬于某節(jié)目p的第幾次收聽,no.表示id次收聽的第幾段收聽記錄,id和no.均從1遞增;(2.2.2)根據(jù)表達(dá)式(1)來進(jìn)行統(tǒng)計(jì),得出用戶u對(duì)于節(jié)目p的單次收聽的收聽時(shí)長(zhǎng)占比表示如下:n為no.的最大值(2)其中duration是節(jié)目p的總時(shí)長(zhǎng);(2.2.3)綜合表達(dá)式(1)和(2),將用戶u在時(shí)間上下文(某時(shí)段t)對(duì)于節(jié)目p的偏好表示為:(2.2.4)節(jié)目的特征包括類型(如交通、新聞等)和主題(如科技、歷史等)。用戶對(duì)于單個(gè)節(jié)目的偏好程度即表達(dá)式(3)計(jì)算出來后,依據(jù)該節(jié)目所屬的類型或主題,便可以得到用戶在某時(shí)段對(duì)于某節(jié)目類型或者主題的偏好程度,即完成“用戶-時(shí)間上下文-節(jié)目偏好”模型的構(gòu)建。更進(jìn)一步的,模塊(2.3)“用戶-節(jié)目-評(píng)分矩陣”模型表示如下:其中,矩陣中的每個(gè)元素rmn表示第m個(gè)用戶對(duì)第n個(gè)項(xiàng)目的評(píng)分。更進(jìn)一步的,模塊(2.4)結(jié)合時(shí)間上下文的基于物品的協(xié)同過濾推薦算法生成個(gè)性化節(jié)目單的步驟如下:(2.4.1)獲取模塊(2.2)的“用戶-時(shí)間上下文-節(jié)目偏好”模型,得到某用戶u在某時(shí)段p內(nèi)偏好的節(jié)目類型和主題列表。(2.4.2)選取(2.4.1)節(jié)目類型和主題列表中偏好值最大的topk節(jié)目類型和主題,k可根據(jù)推薦效果調(diào)整設(shè)置,如將k設(shè)為3。(2.4.3)利用mahout提供的基于物品的協(xié)同過濾算法itemcf生成對(duì)未收聽過的節(jié)目的預(yù)測(cè)評(píng)分。其中相似性度量方法采用pearson相關(guān)系數(shù),表示如下:(2.4.4)根據(jù)用戶對(duì)節(jié)目的預(yù)測(cè)評(píng)分,按照評(píng)分值降序,取topk個(gè)節(jié)目,k值需要測(cè)試調(diào)整,一般情況下可取k值為200。(2.4.5)將(2.4.2)得到的用戶在某時(shí)段下最喜歡的節(jié)目類型和主題,與(2.4.4)步驟中節(jié)目預(yù)測(cè)評(píng)分最高的節(jié)目所屬的類型和主題相匹配,得到符合的節(jié)目,即可安排在對(duì)應(yīng)的時(shí)間段進(jìn)行播出。進(jìn)一步的,方法(3)中實(shí)時(shí)節(jié)目切換功能的實(shí)現(xiàn)步驟如下:(3.1)用戶對(duì)于個(gè)性化節(jié)目單中正在直播的節(jié)目點(diǎn)擊“換一換”按鈕。(3.2)根據(jù)模塊(2.2)已完成的“用戶-時(shí)間上下文-節(jié)目偏好”模型,獲取用戶在該時(shí)段偏好的節(jié)目類型和主題,從數(shù)據(jù)庫(kù)中隨機(jī)選取節(jié)目音頻顯示在節(jié)目單并播放。進(jìn)一步的,方法(4)中節(jié)目實(shí)時(shí)推送功能的實(shí)現(xiàn)包括三個(gè)模塊:(4.1)實(shí)時(shí)統(tǒng)計(jì)模塊:主要包括實(shí)時(shí)熱播節(jié)目統(tǒng)計(jì)和在線收聽人數(shù)統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果將發(fā)送給檢測(cè)模塊和推送模塊;(4.2)實(shí)時(shí)監(jiān)測(cè)模塊:監(jiān)控節(jié)目收聽相關(guān)的關(guān)鍵指標(biāo),包括在線收聽人數(shù)和節(jié)目收聽次數(shù),首先采用移動(dòng)平均法對(duì)數(shù)據(jù)處理,然后判斷是否超過或低于某閾值,若滿足條件,則發(fā)送節(jié)目推送指令給節(jié)目推送模塊告知其可以進(jìn)行節(jié)目消息推送;(4.3)節(jié)目推送模塊:接收來自實(shí)時(shí)統(tǒng)計(jì)和實(shí)時(shí)監(jiān)測(cè)模塊的數(shù)據(jù)流。當(dāng)收到節(jié)目推送指令后,立即推送節(jié)目存入電臺(tái)業(yè)務(wù)數(shù)據(jù)庫(kù),客戶端將會(huì)從數(shù)據(jù)庫(kù)中獲取推送節(jié)目以推送消息的形式發(fā)送給用戶或者插入用戶的個(gè)性化節(jié)目單中。更進(jìn)一步的,模塊(4.1)實(shí)時(shí)統(tǒng)計(jì)的指標(biāo)分為兩部分:(4.1.1)實(shí)時(shí)熱播節(jié)目統(tǒng)計(jì)。(4.1.2)在線收聽人數(shù)統(tǒng)計(jì)。再進(jìn)一步的,指標(biāo)(4.1.1)中的實(shí)時(shí)熱播節(jié)目(當(dāng)前時(shí)段收聽率比較高的節(jié)目)統(tǒng)計(jì),即實(shí)時(shí)topn問題。其統(tǒng)計(jì)步驟如下:(4.1.1.1)接收電臺(tái)用戶行為日志,并解析所需要統(tǒng)計(jì)的字段,主要包括:當(dāng)前收聽的節(jié)目id,用戶的行為類型;(4.1.1.2)采用滑動(dòng)窗口技術(shù)統(tǒng)計(jì)實(shí)時(shí)熱播節(jié)目,得到當(dāng)前收聽節(jié)目的topn。(4.1.1.3)將統(tǒng)計(jì)結(jié)果寫入mysql數(shù)據(jù)庫(kù)并發(fā)給實(shí)時(shí)監(jiān)測(cè)模塊和實(shí)時(shí)推送模塊。統(tǒng)計(jì)結(jié)果字段包括:時(shí)間,節(jié)目id,收聽次數(shù)。再進(jìn)一步的,指標(biāo)(4.1.2)中的在線收聽人數(shù)統(tǒng)計(jì),其統(tǒng)計(jì)步驟如下:(4.1.2.1)接收電臺(tái)用戶行為日志,并解析所需要統(tǒng)計(jì)的字段,主要包括:用戶id,用戶的行為類型;(4.1.2.2)當(dāng)用戶的行為類型為“播放”時(shí),將其添加到在線用戶列表中;當(dāng)行為類型為“暫停/停止”時(shí),從在線用戶列表中移除?;趕torm的實(shí)時(shí)統(tǒng)計(jì)可以實(shí)現(xiàn)統(tǒng)計(jì)頻率為1秒;(4.1.2.3)將統(tǒng)計(jì)結(jié)果寫入mysql數(shù)據(jù)庫(kù)并發(fā)給實(shí)時(shí)監(jiān)測(cè)模塊和實(shí)時(shí)推送模塊。統(tǒng)計(jì)結(jié)果字段包括:時(shí)間,收聽人數(shù)。更進(jìn)一步的,模塊(4.2)實(shí)時(shí)監(jiān)測(cè)模塊要監(jiān)測(cè)的指標(biāo)分為如下兩種:(4.2.1)節(jié)目收聽次數(shù)監(jiān)測(cè)。(4.2.2)在線收聽人數(shù)監(jiān)測(cè)。再進(jìn)一步的,(4.2.1)節(jié)目收聽次數(shù)監(jiān)測(cè)的處理步驟如下:(4.2.1.1)從實(shí)時(shí)統(tǒng)計(jì)模塊中獲取實(shí)時(shí)熱播節(jié)目的topn列表。(4.2.1.2)監(jiān)測(cè)熱播節(jié)目列表中的收聽次數(shù),若top1遠(yuǎn)超過其他節(jié)目,說明該節(jié)目?jī)?nèi)容可能屬于時(shí)事熱點(diǎn),需要推送,則針對(duì)這一節(jié)目發(fā)送節(jié)目推送指令,將該節(jié)目打上標(biāo)注,告知節(jié)目推送模塊。再進(jìn)一步的,(4.2.2)在線收聽人數(shù)監(jiān)測(cè)的處理步驟如下:(4.2.2.1)從實(shí)時(shí)統(tǒng)計(jì)模塊中獲取實(shí)時(shí)在線收聽人數(shù)。(4.2.2.2)采用指數(shù)移動(dòng)平均法計(jì)算在線收聽人數(shù)的變化趨勢(shì)。(4.2.2.3)監(jiān)測(cè)平均值,當(dāng)平均值低于閾值時(shí),向節(jié)目推送模塊發(fā)送推送指令,此刻節(jié)目的推送用以吸引用戶,提高節(jié)目收聽率。更進(jìn)一步的,(4.1)節(jié)目推送模塊的實(shí)施步驟如下:(4.1.1)從實(shí)時(shí)統(tǒng)計(jì)模塊獲取實(shí)時(shí)熱播節(jié)目的topn節(jié)目列表,進(jìn)行預(yù)處理。預(yù)處理包括:對(duì)相同的節(jié)目id進(jìn)行去重,保留最新的統(tǒng)計(jì)數(shù)據(jù)。(4.1.2)接收實(shí)時(shí)監(jiān)測(cè)模塊發(fā)送的節(jié)目推送指令。(4.1.3)判斷指令類型,如果是通過在線收聽人數(shù)監(jiān)測(cè)發(fā)出的推送指令,則將預(yù)處理后的節(jié)目推送列表推送給用戶;如果是通過節(jié)目收聽次數(shù)監(jiān)測(cè)發(fā)送的推送指令,則直接將推送指令中指定的節(jié)目進(jìn)行推送。以上步驟中涉及閾值的設(shè)定都是可以通過現(xiàn)有數(shù)據(jù)根據(jù)經(jīng)驗(yàn)進(jìn)行設(shè)定,而且不是固定不變可以進(jìn)行調(diào)整的,所以沒有必要限定。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:a.采集以新浪微博賬號(hào)登錄的用戶的微博內(nèi)容,爬取并挖掘用戶已有的社交賬號(hào)的內(nèi)容動(dòng)態(tài),并結(jié)合在用戶初次使用本系統(tǒng)時(shí)完成必要的注冊(cè)信息(性別、年齡、職業(yè)、節(jié)目類型偏好)的方式,在一定程度上解決了冷啟動(dòng)問題,使新用戶在初次使用本系統(tǒng)時(shí),即可獲得符合個(gè)人興趣的節(jié)目單推薦。b.本發(fā)明面向傳統(tǒng)廣播電臺(tái),提出在保留電臺(tái)直播形式的前提下,基于大數(shù)據(jù)平臺(tái)的運(yùn)算優(yōu)勢(shì),通過離線推薦、實(shí)時(shí)推送等方式,將制作好的節(jié)目以更細(xì)粒度的形式,按照節(jié)目類型或主題將其在每個(gè)用戶最喜歡收聽的時(shí)刻進(jìn)行推薦并播放,創(chuàng)新了一種個(gè)性化定制電臺(tái)的業(yè)務(wù)模式。附圖說明圖1本發(fā)明所述自動(dòng)切分標(biāo)注系統(tǒng)的系統(tǒng)框架圖2本發(fā)明中多窗譜估計(jì)改進(jìn)譜減法運(yùn)算流程示意圖圖3本發(fā)明所述個(gè)性化節(jié)目組織推薦系統(tǒng)的功能模塊圖圖4本發(fā)明所述微博數(shù)據(jù)采集流程示意圖圖5本發(fā)明所述的結(jié)合時(shí)間上下文和物品協(xié)同過濾算法的用戶節(jié)目單生成示意圖圖6本發(fā)明所述的節(jié)目實(shí)時(shí)推送模塊間關(guān)系示意圖具體實(shí)施方式下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清晰、完整的描述。圖1是本發(fā)明所述自動(dòng)切分標(biāo)注系統(tǒng)的系統(tǒng)框架首先是分幀窗函數(shù)選擇漢明窗,漢明窗的定義如下:本發(fā)明采用最小二乘法擬合消除趨勢(shì)項(xiàng)。本發(fā)明采用多窗譜估計(jì)的改進(jìn)譜減法進(jìn)行降噪。本發(fā)明的預(yù)加重的濾波器設(shè)為h(z)=1-αz-1本發(fā)明提取的特征可以包括但不限于表1的特征:表1提取特征本發(fā)明采用evolutive-hmm方法進(jìn)行說話人分割與聚類。本發(fā)明采用科大訊飛的語音識(shí)別sdk進(jìn)行語音識(shí)別。本發(fā)明使用電臺(tái)真實(shí)播出的新聞稿構(gòu)建廣播本體語義網(wǎng)。本發(fā)明的訓(xùn)練與分類的具體實(shí)現(xiàn)還取決于計(jì)算機(jī)系統(tǒng),在多核或集群計(jì)算機(jī)系統(tǒng)上,上述許多步驟可以并行進(jìn)行。圖2是本發(fā)明的多窗譜估計(jì)的改進(jìn)譜減法運(yùn)算流程示意圖。其中,多窗譜的定義如下:上式中,l為數(shù)據(jù)窗個(gè)數(shù);smt為第k個(gè)數(shù)據(jù)窗的譜,定義如下:上式中,x(n)為數(shù)據(jù)序列;n為序列長(zhǎng)度;ak(n)為第k個(gè)數(shù)據(jù)窗,它滿足多個(gè)數(shù)據(jù)窗之間相互正交:數(shù)據(jù)窗是一組相互正交的離散橢球序列。對(duì)分幀后的信號(hào)進(jìn)行fft,分別求其幅度譜|xi(k)|和相位譜θi(k),在相鄰幀之間做平滑處理,計(jì)算平均幅度譜以i幀為中心前后各取m幀,共有2m+1幀進(jìn)行平均。本發(fā)明中取m為1,即在3幀中進(jìn)行平均。把分幀后的信號(hào)xi(m)進(jìn)行多窗譜估計(jì),得到多窗譜功率譜密度p(k,i):p(k,i)=pmtm[xi(m)]式中,pmtm表示進(jìn)行多窗譜功率譜密度估計(jì)。對(duì)多窗譜功率譜密度估計(jì)值也進(jìn)行相鄰幀之間的平滑處理,計(jì)算平滑功率譜密度py(k,i):以i幀為中心前后各取m幀,共有2m+1幀進(jìn)行平均。本發(fā)明中取m為1,即在3幀中進(jìn)行平均。已知前導(dǎo)無話段占有nis幀,可以計(jì)算出噪聲的平均功率譜密度值pn(k):利用譜減關(guān)系計(jì)算增益因子:上式中,α為過減因子;β為增益補(bǔ)償因子。通過增益因子g(k,i)和平均幅度譜可求得譜減后的幅度譜:用譜減后的幅度譜結(jié)合θi(k)進(jìn)行ifft,將頻域還原到時(shí)域,就得到降噪后的語音信號(hào)圖3為本發(fā)明所述個(gè)性化節(jié)目組織推薦系統(tǒng)的功能模塊圖,主要包括四層:(1)存儲(chǔ)層:分為三部分:mysql數(shù)據(jù)庫(kù)屬于個(gè)性化電臺(tái)的業(yè)務(wù)數(shù)據(jù)庫(kù),客戶端所需要的信息均來自該數(shù)據(jù)庫(kù);hadoop分布式文件系統(tǒng)用于持久化存儲(chǔ)用戶的顯式和隱式行為數(shù)據(jù)及離線分析的結(jié)果;flume日志收集系統(tǒng)用以將數(shù)據(jù)寫入hdfs,也可以傳遞給kafka供storm消費(fèi);(2)計(jì)算層:基于mapreduce和hive實(shí)現(xiàn)離線的指標(biāo)統(tǒng)計(jì),基于storm進(jìn)行實(shí)時(shí)流式計(jì)算統(tǒng)計(jì);(3)推薦層:對(duì)計(jì)算后的用戶模型應(yīng)用推薦算法產(chǎn)生個(gè)性化節(jié)目單,并推送到mysql數(shù)據(jù)庫(kù)供客戶端調(diào)用顯示;(4)應(yīng)用層:提供個(gè)性化電臺(tái)節(jié)目單收聽、國(guó)內(nèi)電臺(tái)直播節(jié)目收聽和實(shí)時(shí)熱播節(jié)目推送等功能。另外,系統(tǒng)提供數(shù)據(jù)采集接口,接入電臺(tái)的用戶信息和登錄用戶的微博信息,寫入存儲(chǔ)層。一種基于大數(shù)據(jù)的互聯(lián)網(wǎng)個(gè)性化電臺(tái)節(jié)目推薦方法,該系統(tǒng)的節(jié)目推薦方法分為四大類:(1)提出一種解決冷啟動(dòng)的新用戶節(jié)目推薦方法為解決新用戶的冷啟動(dòng)問題,需要建立如下兩種用戶模型:“博文內(nèi)容-興趣主題-節(jié)目”模型和基于注冊(cè)信息的用戶初始畫像模型。其中前者可以獲得用戶對(duì)于興趣主題的偏好,后者可以獲得用戶對(duì)于節(jié)目類型的偏好,并且可以根據(jù)用戶的其他注冊(cè)信息得到相同屬性的用戶的節(jié)目收聽情況(如某節(jié)目的播放次數(shù)),基于此進(jìn)行新用戶節(jié)目單生成。其中,“博文內(nèi)容-興趣主題-節(jié)目”模型的構(gòu)建分兩大步:博文內(nèi)容采集和興趣主題生成。圖4為個(gè)性化電臺(tái)用戶采用新浪微博賬號(hào)登錄后,系統(tǒng)對(duì)微博內(nèi)容的爬取步驟,如下:1.1用戶選擇社交賬號(hào)登錄方式,輸入新浪微博賬號(hào)密碼進(jìn)行認(rèn)證并授權(quán)登錄;1.2調(diào)用新浪微博的用戶接口api獲取該用戶的微博uid,該uid對(duì)于微博用戶唯一;1.3利用微博用戶的uid從http://www.weibo.cn網(wǎng)站上爬取該用戶的微博博文內(nèi)容,經(jīng)預(yù)處理后,保存在以u(píng)id命名的文件中;預(yù)處理內(nèi)容包括:去除微博內(nèi)容中的http鏈接、@某人、表情這三種內(nèi)容,因?yàn)檫@些對(duì)于主題分析沒有正面作用?;谏鲜鋈脚廊〉奈⒉﹥?nèi)容,分條調(diào)用騰訊文智的文本分類api,獲取內(nèi)容的主題分類。對(duì)所有微博內(nèi)容的興趣主題進(jìn)行過濾后匯總,以[主題:次數(shù)]的形式標(biāo)識(shí)該用戶該興趣主題的偏好值。對(duì)微博內(nèi)容興趣主題的過濾操作目的在于:有些微博博文內(nèi)容所表達(dá)出來的含義很不明確,通過文本分類算法極有可能無法得到主題類型(此時(shí)該文本類型范圍:未分類100%),或者得到的主題類型占比很少(如:[未分類:95%,健康:5%]),對(duì)于這種情況的主題類型應(yīng)該過濾掉。即當(dāng)某主題的占比超過一定的閾值時(shí),如20%,該主題才會(huì)被統(tǒng)計(jì)到主題列表中,否則不予統(tǒng)計(jì)。(2)提出一種結(jié)合時(shí)間上下文的個(gè)性化節(jié)目單推薦生成方法該節(jié)目單生成方法的實(shí)現(xiàn)包括如下步驟:2.1電臺(tái)用戶顯式和隱式行為數(shù)據(jù)的采集;顯式行為:用戶對(duì)節(jié)目的操作信息,包括收藏、評(píng)分(1顆星到5顆星)、分享;隱式行為:收聽時(shí)長(zhǎng)(用戶id,節(jié)目id,收聽開始時(shí)間,收聽結(jié)束時(shí)間),收聽次數(shù)(用戶id,節(jié)目id,收聽次數(shù))。2.2“用戶-時(shí)間上下文-節(jié)目偏好”模型的構(gòu)建;采集用戶收聽的隱式行為,收集指標(biāo)主要是某用戶u對(duì)某節(jié)目p的收聽時(shí)長(zhǎng)。對(duì)于某用戶u對(duì)于某節(jié)目p的某次收聽行為表示為:{(u,p,start_time,end_time,id,no.),num=1,2,......}(1)用戶節(jié)目收聽記錄用id來標(biāo)識(shí)這些記錄屬于某節(jié)目p的一次收聽(如暫停、播放、暫停)還是多次播放,id從1開始遞增。例如,id為1,表示用戶u對(duì)節(jié)目p的第1次收聽;id為2,表示第2次收聽;max(id)作為id的最大值,表示用戶u對(duì)節(jié)目p的收聽總次數(shù)。no.表示id次收聽的第幾段收聽記錄,從1遞增。根據(jù)表達(dá)式(1)來進(jìn)行統(tǒng)計(jì),得出用戶u對(duì)于節(jié)目p的單次收聽的收聽時(shí)長(zhǎng)占比表示如下:n為no.的最大值(2)其中duration是節(jié)目p的總時(shí)長(zhǎng);綜合表達(dá)式(1)和(2),將用戶u在時(shí)間上下文(某時(shí)段t)對(duì)于節(jié)目p的偏好表示為:節(jié)目的特征包括類型(如交通、新聞等)和主題(如科技、歷史等)。用戶對(duì)于單個(gè)節(jié)目的偏好程度即表達(dá)式(3)計(jì)算出來后,依據(jù)該節(jié)目所屬的類型或主題,便可以得到用戶在某時(shí)段對(duì)于某節(jié)目類型或者主題的偏好程度,即完成“用戶-時(shí)間上下文-節(jié)目偏好”模型的構(gòu)建。統(tǒng)計(jì)后的模型存儲(chǔ)在mysql數(shù)據(jù)庫(kù)的表中,字段如下:表2用戶-時(shí)間上下文-節(jié)目偏好表2.3“用戶-節(jié)目-評(píng)分矩陣”模型的構(gòu)建;用戶u對(duì)某節(jié)目p的評(píng)分需要綜合三種顯式行為(評(píng)分、收藏、分享)以及的隱式行為(用戶收聽節(jié)目的時(shí)長(zhǎng)),將行為通過數(shù)值量化,并采取合適的加權(quán)方案,來確定用戶對(duì)節(jié)目的最終評(píng)分。其中,評(píng)分標(biāo)準(zhǔn)形式化定義如表2。需要說明的是,分享行為的評(píng)分范圍為[0,1,2],雖然單個(gè)用戶可以對(duì)節(jié)目分享1到多次,但為了量化標(biāo)準(zhǔn),將分享1次,記1;分享2次或2次以上,均記為2。表3評(píng)分標(biāo)準(zhǔn)定義根據(jù)表2中用戶行為的形式化表示,將用戶u對(duì)某節(jié)目p的評(píng)分定義如下:其中,maxshare表示分享行為的最大值,即為2。表示所有收聽第i個(gè)節(jié)目的用戶中偏好值最大的值。另外,將用戶對(duì)節(jié)目的隱式收聽偏好和星級(jí)評(píng)分作為一個(gè)部分來計(jì)算,因?yàn)橛脩糁挥袑?duì)播放收聽過的節(jié)目才可以進(jìn)行星級(jí)評(píng)分,該評(píng)分起到對(duì)公式(3)的修正作用,如表4所示。如果某用戶u收聽了節(jié)目p進(jìn)行播放,但是并沒有進(jìn)行星級(jí)評(píng)分,則默認(rèn)該節(jié)目的星級(jí)評(píng)分為3星,即值等于1,對(duì)公式(3)沒有修正作用。如果星級(jí)評(píng)分為5星,則修正因子等于2,收聽偏好占比將雙倍放大;而如果星級(jí)為1星,修正因子等于0,在該情況下,若用戶對(duì)該節(jié)目并沒有其他的顯式行為,即按照公式(4)計(jì)算出用戶對(duì)節(jié)目的總評(píng)分為0,需要對(duì)總評(píng)分再加上0.1進(jìn)行修正,用來和未評(píng)價(jià)或收聽的節(jié)目進(jìn)行區(qū)分。表4星級(jí)評(píng)分對(duì)應(yīng)的修正因子說明星級(jí)評(píng)分1星2星3星4星5星修正因子00.511.522.4結(jié)合時(shí)間上下文的基于物品的協(xié)同過濾推薦算法生成個(gè)性化節(jié)目單;該算法的實(shí)現(xiàn)步驟如圖5所示。具體描述如下:獲取2.2步已經(jīng)構(gòu)建的“用戶-時(shí)間上下文-節(jié)目偏好”模型,得到某用戶u在某時(shí)段p內(nèi)偏好的節(jié)目類型和主題列表。選取節(jié)目類型和主題列表中偏好值最大的topk節(jié)目類型和主題,k可根據(jù)推薦效果調(diào)整設(shè)置,如將k設(shè)為3。利用mahout提供的基于物品的協(xié)同過濾算法itemcf,利用itemsimilarity模塊計(jì)算節(jié)目之間的相似度,并生成對(duì)未收聽過的節(jié)目的預(yù)測(cè)評(píng)分。其中相似性度量方法采用pearson相關(guān)系數(shù),表示如下:根據(jù)用戶對(duì)節(jié)目的預(yù)測(cè)評(píng)分,按照評(píng)分值降序,取topk1個(gè)節(jié)目,k1值需要測(cè)試調(diào)整,一般情況下可取k1值為200。將得到的用戶在某時(shí)段下最喜歡的節(jié)目類型和主題,與節(jié)目預(yù)測(cè)評(píng)分最高的節(jié)目所屬的類型和主題相匹配,得到符合的節(jié)目,即可安排在對(duì)應(yīng)的時(shí)間段進(jìn)行播出。(3)實(shí)時(shí)節(jié)目切換功能對(duì)正在收聽的節(jié)目提供“換一換”機(jī)制,根據(jù)用戶興趣進(jìn)行實(shí)時(shí)節(jié)目切換,步驟如下:3.1用戶對(duì)于個(gè)性化節(jié)目單中正在直播的節(jié)目點(diǎn)擊“換一換”按鈕。3.2根據(jù)2.2已完成的“用戶-時(shí)間上下文-節(jié)目偏好”模型,獲取用戶在該時(shí)段偏好的節(jié)目類型和主題,從數(shù)據(jù)庫(kù)中隨機(jī)選取節(jié)目音頻顯示在節(jié)目單并播放。(4)節(jié)目實(shí)時(shí)推送功能利用storm技術(shù)實(shí)現(xiàn)基于在線節(jié)目收聽量等進(jìn)行實(shí)時(shí)節(jié)目推送提醒,該功能包括三個(gè)模塊:實(shí)時(shí)統(tǒng)計(jì)、實(shí)時(shí)監(jiān)測(cè)和節(jié)目推送,各模塊間的關(guān)系如圖6所示,具體描述如下:4.1實(shí)時(shí)統(tǒng)計(jì)模塊:包括實(shí)時(shí)熱播節(jié)目統(tǒng)計(jì)和在線收聽人數(shù)統(tǒng)計(jì)。實(shí)時(shí)熱播節(jié)目(當(dāng)前時(shí)段收聽率比較高的節(jié)目)統(tǒng)計(jì),即實(shí)時(shí)topn問題。其統(tǒng)計(jì)步驟如下:接收電臺(tái)用戶行為日志,并解析所需要統(tǒng)計(jì)的字段,主要包括:當(dāng)前收聽的節(jié)目id,用戶的行為類型。其中用戶行為日志由日志收集系統(tǒng)收集,收集的用戶行為數(shù)據(jù)結(jié)構(gòu)如表5所示。表5用戶行為日志結(jié)構(gòu)采用滑動(dòng)窗口技術(shù)統(tǒng)計(jì)熱播節(jié)目,得到當(dāng)前收聽節(jié)目的topn。滑動(dòng)窗口技術(shù)簡(jiǎn)要描述為:在數(shù)據(jù)流上維持一個(gè)窗口,只關(guān)心這個(gè)窗口內(nèi)的數(shù)據(jù),當(dāng)新項(xiàng)到來時(shí),窗口向前滑動(dòng)。將統(tǒng)計(jì)結(jié)果寫入mysql數(shù)據(jù)庫(kù)并發(fā)給實(shí)時(shí)監(jiān)測(cè)模塊和實(shí)時(shí)推送模塊。統(tǒng)計(jì)結(jié)果字段包括:時(shí)間,節(jié)目id,收聽次數(shù)。在線收聽人數(shù)統(tǒng)計(jì),其統(tǒng)計(jì)步驟如下:接收電臺(tái)用戶行為日志,并解析所需要統(tǒng)計(jì)的字段,主要包括:用戶id,用戶的行為類型;當(dāng)用戶的行為類型為“播放”時(shí),將其添加到在線用戶列表中;當(dāng)行為類型為“暫停/停止”時(shí),從在線用戶列表中移除?;趕torm的實(shí)時(shí)統(tǒng)計(jì)可以實(shí)現(xiàn)統(tǒng)計(jì)頻率為1秒;將統(tǒng)計(jì)結(jié)果寫入mysql數(shù)據(jù)庫(kù)并發(fā)給實(shí)時(shí)監(jiān)測(cè)模塊和實(shí)時(shí)推送模塊。統(tǒng)計(jì)結(jié)果字段包括:時(shí)間,收聽人數(shù)。4.2實(shí)時(shí)監(jiān)測(cè)模塊:監(jiān)測(cè)指標(biāo)包括節(jié)目收聽次數(shù)和在線收聽人數(shù)。節(jié)目收聽次數(shù)監(jiān)測(cè)的處理步驟如下:從實(shí)時(shí)統(tǒng)計(jì)模塊中獲取實(shí)時(shí)熱播節(jié)目的topn列表。監(jiān)測(cè)熱播節(jié)目列表中的收聽次數(shù),若top1遠(yuǎn)超過其他節(jié)目,說明該節(jié)目?jī)?nèi)容可能屬于時(shí)事熱點(diǎn),需要推送,則針對(duì)這一節(jié)目發(fā)送節(jié)目推送指令,將該節(jié)目打上標(biāo)注,告知節(jié)目推送模塊。在線收聽人數(shù)監(jiān)測(cè)的處理步驟如下:從實(shí)時(shí)統(tǒng)計(jì)模塊中獲取實(shí)時(shí)在線收聽人數(shù)。采用指數(shù)移動(dòng)平均法計(jì)算在線收聽人數(shù)的變化趨勢(shì)。監(jiān)測(cè)平均值,當(dāng)平均值低于閾值時(shí),向節(jié)目推送模塊發(fā)送推送指令,例如當(dāng)?shù)陀诋?dāng)前注冊(cè)用戶的5%時(shí)說明此時(shí)收聽率相對(duì)較低,此刻節(jié)目的推送用以吸引用戶,提高節(jié)目收聽率。4.3節(jié)目推送模塊,實(shí)施步驟如下:從實(shí)時(shí)統(tǒng)計(jì)模塊獲取實(shí)時(shí)熱播節(jié)目的topn節(jié)目列表,進(jìn)行預(yù)處理。預(yù)處理包括:對(duì)相同的節(jié)目id進(jìn)行去重,保留最新的統(tǒng)計(jì)數(shù)據(jù)。接收實(shí)時(shí)監(jiān)測(cè)模塊發(fā)送的節(jié)目推送指令。判斷指令類型,如果是通過在線收聽人數(shù)監(jiān)測(cè)發(fā)出的推送指令,則將預(yù)處理后的節(jié)目推送列表推送給用戶;如果是通過節(jié)目收聽次數(shù)監(jiān)測(cè)發(fā)送的推送指令,則直接將推送指令中指定的節(jié)目進(jìn)行推送。當(dāng)前第1頁(yè)12
      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1