国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法

      文檔序號(hào):6376623閱讀:189來源:國知局
      專利名稱:基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種主題類視頻自動(dòng)采集方法,具體是一種基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法。
      背景技術(shù)
      現(xiàn)行的搜索引擎都是基于用戶輸入的關(guān)鍵字進(jìn)行信息查詢的文本搜索引擎。隨著多媒體技術(shù)的飛速發(fā)展、網(wǎng)絡(luò)通信能力的極大提高和計(jì)算機(jī)處理速度的不斷增長,Internet上的信息除了文本之外,還有大量的圖像、視頻、音頻、動(dòng)畫和圖形等,對(duì)這些媒體類型的信息進(jìn)行快速準(zhǔn)確的檢索已經(jīng)成為人們的迫切需要。尤其是在Blog、TAG、SNS、RSS、 Wiki等社會(huì)軟件應(yīng)用為代表的Web2. O出現(xiàn)以后,網(wǎng)絡(luò)視頻大量出現(xiàn),各大新聞網(wǎng)站紛紛建立在線新聞?lì)l道,如CNTV ;大量視頻網(wǎng)站的出現(xiàn),如優(yōu)酷、酷6等。每天大量的視頻被網(wǎng)友、新聞媒體上傳,用戶只能從視頻網(wǎng)站中去搜索查看,但是如果想要收藏某一類的視頻,那么如果只是人為的去操作下載,就會(huì)有很大的阻礙。

      發(fā)明內(nèi)容
      本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于文本分析的面向視頻網(wǎng)站的互聯(lián)網(wǎng)視頻搜索方法。本發(fā)明方法具體包括以下步驟
      (I)提取視頻網(wǎng)站主題框架。(2)選定主題及采集相應(yīng)主題的視頻播放URL。(3)視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊(duì)列。(4)根據(jù)視頻下載URL下載視頻并存儲(chǔ)。所述的提取視頻網(wǎng)站主題框架,包括如下步驟
      A)在數(shù)據(jù)庫中建立一張表 WebsiteTree,包含 Id、Url> WebsiteName> ParentIcU Level這5個(gè)字段,其中Id為主鍵。B)分析視頻網(wǎng)站首頁源代碼,利用正則表達(dá)式獲取導(dǎo)航欄,包括URL、主題名;記錄該主題屬于哪一類別,屬于第幾級(jí)主題,并將信息存儲(chǔ)于數(shù)據(jù)庫表WebsiteTree。C)對(duì)于提取的主題相應(yīng)頁面的源碼進(jìn)行分析,如果還有小類,則跳轉(zhuǎn)至步驟B),若沒有,則執(zhí)行步驟D)。D)根據(jù)WebsiteTree表中的信息構(gòu)建視頻網(wǎng)站主題框架。所述的選定主題及采集相應(yīng)主題的視頻播放URL,包括如下步驟
      E)用戶從主題框架中選擇主題。F)分析該主題的頁面源代碼,利用正則表達(dá)式獲取視頻播放URL和普通頁面URL,放入U(xiǎn)RL隊(duì)列;隊(duì)列的特點(diǎn)是先進(jìn)先出,對(duì)于先放入隊(duì)列的URL先進(jìn)行分析。所述的視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊(duì)列,包括如下步驟
      G)設(shè)置一個(gè)最大分析頁面線程并發(fā)數(shù),開啟線程,線程依次訪問URL隊(duì)列中的信息。H)線程從URL隊(duì)列中獲取一個(gè)URL,若該URL是視頻播放URL,則將其與“http: //WWW. flvcd. com/parse. php kw=”字符串連接,并獲取該地址的源代碼;利用正則表達(dá)式從該源代碼中獲取該播放URL的下載地址。I)若是普通頁面URL,則獲取該頁面源代碼,分析并提取URL,如果該URL沒有被提取過,則放入U(xiǎn)RL隊(duì)列,否則將其丟棄。J)當(dāng)H)中所獲取的URL頁面分析完成,線程自動(dòng)釋放,并再次從URL隊(duì)列中獲取一個(gè)URL進(jìn)行重復(fù)H)、I)操作,直到URL隊(duì)列分析完成停止。所述的根據(jù)視頻下載URL下載視頻并存儲(chǔ),包括如下步驟
      K)在數(shù)據(jù)庫中建立一張表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UploadTime> Clickrate、CommentCount> FileSize 這 10 個(gè)字段,其中 Id 為主鍵。L)設(shè)置一個(gè)最大下載線程并發(fā)數(shù),開啟線程,線程依次等待視頻下載的命令。M)線程接受視頻下載URL,截取下載URL字符串中最后一個(gè)’ /’之后的字符串作為文件名,并新建下載,將視頻存儲(chǔ)于磁盤。N)將視頻的詳細(xì)信息存儲(chǔ)于數(shù)據(jù)庫表VideoInf表中。O)當(dāng)視頻下載完成,線程釋放,等待下一個(gè)視頻下載的命令。本發(fā)明的有益效果
      第一,由于本發(fā)明設(shè)計(jì)了視頻網(wǎng)站的主題類提取及框架顯示,所以能更容易解決用戶需要下載的類別,提高下載的準(zhǔn)確性。第二,由于本發(fā)明設(shè)計(jì)了多線程分析視頻播放URL轉(zhuǎn)化為視頻下載URL并將視頻進(jìn)行下載,所以能更容易解決多個(gè)視頻同時(shí)下載的問題。第三,由于本發(fā)明設(shè)計(jì)了獲取視頻下載URL后自動(dòng)新建下載,不需要調(diào)用其他下載器進(jìn)行人為的干預(yù),所以能更容易解決自動(dòng)下載視頻的技術(shù)問題。


      圖1為視頻米集流程 圖2為多線程視頻下載流程 圖3為視頻信息數(shù)據(jù)庫記錄 圖4為優(yōu)酷網(wǎng)站中一部分主題框架圖。
      具體實(shí)施例方式以下結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。下面結(jié)合附圖,對(duì)本發(fā)明實(shí)現(xiàn)用戶按所選主題下載視頻所采取的技術(shù)方案做進(jìn)一步說明
      1、在數(shù)據(jù)庫中建立一張表 WebsiteTree,包含 Id、Url、WebsiteName、ParentIcULevel這5個(gè)字段,用于保存視頻網(wǎng)站的主題框架。其中Id(int)代表主題的編號(hào)并且是該表的主鍵,Url(varchar)代表主題的Url地址,WebsiteName (varchar)代表主題名,ParentId(int)代表該主題上一級(jí)主題的編號(hào),Level (tinyint)代表該主題是哪一級(jí)主題。在數(shù)據(jù)庫中建立一張新表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UpIoadTime>Clickrate>CommentCount>FileSize 這 10 個(gè) 字段,用于保存視頻的詳細(xì)信息。其中Id (int)代表下載視頻的編號(hào)并且是該表的主鍵,Url (varchar)代表視頻的Url地址,Title (varchar)代表視頻的標(biāo)題,Tag (varchar)代表視頻的標(biāo)簽,Comments (varchar)代表視頻的評(píng)論、UploadUser (varchar)代表視頻的上傳用戶、UploadTime (datetime)代表視頻的上傳時(shí)間、Clickrate (int)代表視頻的點(diǎn)擊量、CommentCount (int)代表視頻的評(píng)論數(shù)、FileSize (int)代表視頻的文件大小。2、下面以優(yōu)酷為例,獲取優(yōu)酷視頻網(wǎng)站的一部分主題框架(如表I和圖4所示)。根據(jù)首頁URL頁面源碼,通過正則表達(dá)式可以獲取導(dǎo)航欄信息,并將導(dǎo)航欄中的主題名、對(duì)應(yīng)的URL,以及ParentId設(shè)為I, Level設(shè)為I,存儲(chǔ)到WebsiteTree表中。再將這些Level為I的主題Url的頁面重新分析,獲取他們相應(yīng)的子導(dǎo)航欄信息,并將Level進(jìn)行加I操作,分析頁面的URL的Id作為ParentId,存儲(chǔ)到WebsiteTree表中。分析每一個(gè)主題URL頁面,直到該URL頁面是最后一級(jí)主題結(jié)束。表I優(yōu)酷網(wǎng)站一部分主題信息表
      權(quán)利要求
      1.基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法,通過對(duì)視頻網(wǎng)站主題類的選取,并進(jìn)行準(zhǔn)確下載該主題視頻,其特征在于包括如下步驟 (1)提取視頻網(wǎng)站主題框架; (2)選定主題及采集相應(yīng)主題的視頻播放URL; (3)視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊(duì)列; (4)根據(jù)視頻下載URL下載視頻并存儲(chǔ)。
      2.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法,其特征是提取視頻網(wǎng)站主題框架,包括如下步驟 A)在數(shù)據(jù)庫中建立一張表WebsiteTree,包含 Id、Url> WebsiteName> ParentIcU Level這5個(gè)字段,其中Id為主鍵; B)分析視頻網(wǎng)站首頁源代碼,利用正則表達(dá)式獲取導(dǎo)航欄,包括URL、主題名;記錄該主題屬于哪一類別,屬于第幾級(jí)主題,并將信息存儲(chǔ)于數(shù)據(jù)庫表WebsiteTree ; C)對(duì)于提取的主題相應(yīng)頁面的源碼進(jìn)行分析,如果還有小類,則跳轉(zhuǎn)至步驟B),若沒有,則執(zhí)行步驟D ); D)根據(jù)WebsiteTree表中的信息構(gòu)建視頻網(wǎng)站主題框架。
      3.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法,其特征是選定主題及采集相應(yīng)主題的視頻播放URL,包括如下步驟 E)用戶從主題框架中選擇主題; F)分析該主題的頁面源代碼,利用正則表達(dá)式獲取視頻播放URL和普通頁面URL,放入U(xiǎn)RL隊(duì)列;隊(duì)列的特點(diǎn)是先進(jìn)先出,對(duì)于先放入隊(duì)列的URL先進(jìn)行分析。
      4.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法,其特征是視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊(duì)列,包括如下步驟 G)設(shè)置一個(gè)最大分析頁面線程并發(fā)數(shù),開啟線程,線程依次訪問URL隊(duì)列中的信息; H)線程從URL隊(duì)列中獲取一個(gè)URL,若該URL是視頻播放URL,則將其與“http://www.flvcd. com/parse. php kw=”字符串連接,并獲取該地址的源代碼;利用正則表達(dá)式從該源代碼中獲取該播放URL的下載地址; I)若是普通頁面URL,則獲取該頁面源代碼,分析并提取URL,如果該URL沒有被提取過,則放入U(xiǎn)RL隊(duì)列,否則將其丟棄; J)當(dāng)H)中所獲取的URL頁面分析完成,線程自動(dòng)釋放,并再次從URL隊(duì)列中獲取一個(gè)URL進(jìn)行重復(fù)H)、I)操作,直到URL隊(duì)列分析完成停止。
      5.根據(jù)權(quán)利要求I所述的基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法,其特征是根據(jù)視頻下載URL下載視頻并存儲(chǔ),包括如下步驟 K)在數(shù)據(jù)庫中建立一張表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount> FileSize 這 10 個(gè)字段,其中 Id 為主鍵; L)設(shè)置一個(gè)最大下載線程并發(fā)數(shù),開啟線程,線程依次等待視頻下載的命令; M)線程接受視頻下載URL,截取下載URL字符串中最后一個(gè)’ Γ之后的字符串作為文件名,并新建下載,將視頻存儲(chǔ)于磁盤; N)將視頻的詳細(xì)信息存儲(chǔ)于數(shù)據(jù)庫表VideoInf表中; O)當(dāng)視頻下載完成,線程釋放,等待下一個(gè)視頻下載的命令。
      全文摘要
      本發(fā)明涉及一種基于視頻網(wǎng)站的主題類視頻自動(dòng)采集方法?,F(xiàn)行的搜索引擎都是基于用戶輸入的關(guān)鍵字進(jìn)行信息查詢的文本搜索引擎。本發(fā)明首先提取視頻網(wǎng)站主題框架。然后選定主題及采集相應(yīng)主題的視頻播放URL。其次視頻播放URL轉(zhuǎn)化為視頻下載URL,普通頁面URL分析獲取URL,將其放入隊(duì)列。最后根據(jù)視頻下載URL下載視頻并存儲(chǔ)。由于本發(fā)明設(shè)計(jì)了視頻網(wǎng)站的主題類提取及框架顯示,所以能更容易解決用戶需要下載的類別,提高下載的準(zhǔn)確性。
      文檔編號(hào)G06F17/30GK102880674SQ20121033252
      公開日2013年1月16日 申請(qǐng)日期2012年9月10日 優(yōu)先權(quán)日2012年9月10日
      發(fā)明者姜明, 陳嬋, 沈幸峰, 王興起, 張旻, 湯景凡, 胡宏宇 申請(qǐng)人:杭州電子科技大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1