一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置制造方法
【專利摘要】一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法和裝置,其方法首先構(gòu)造一個文檔集合,統(tǒng)計字符串在文檔集合中頻率和在單個文檔中的頻率,以及每個字符在哪些文本串中出現(xiàn),每個字符的筆畫數(shù)。然后,切詞處理待計算文本串權(quán)重的文檔,得到一個文本串序列,對每一個文本計算其視覺密度,易識別度,和TF?IDF值。最后,加權(quán)相加該文本串的視覺密度、易識別度和TF?IDF值,得到文本串對一個文檔的權(quán)重,并進一步的得到文本串對文檔的歸一化權(quán)重。該方法使得具有更多信息量,同時容易被用戶辨識的詞具有更大的權(quán)重,在搜索結(jié)果中更多展現(xiàn)普通用戶容易識別、讀懂和理解的視頻結(jié)果,使得用戶能夠更快地發(fā)現(xiàn)感興趣的結(jié)果。
【專利說明】一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及搜索引擎領(lǐng)域,具體地,涉及一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置。
【背景技術(shù)】
[0002]搜索引擎在建立倒排索引時,需要計算每個文檔中的詞在該文檔中的權(quán)重?,F(xiàn)有技術(shù)中多是基于文檔中詞頻和詞在文檔集合中出現(xiàn)的文檔頻率(即TF*IDF)來計算詞在一個文檔中的權(quán)重。TF*IDF算法是搜索引擎領(lǐng)域里的經(jīng)典算法,在具體實現(xiàn)到系統(tǒng)的過程中,使用者一般均會進行適應(yīng)性修改,以符合其所屬領(lǐng)域數(shù)據(jù)分布的特征。
[0003]但上述的各種適應(yīng)性的修改的TF*IDF的方法均沒有考慮到作為搜索結(jié)果觀察者的用戶對文本串視覺上的識別順暢性。當用戶對搜索結(jié)果的“第一眼”識別過程中,用戶往往會把注意力首先集中在其最容易識別、讀懂和理解的結(jié)果上。
[0004]因此,如何能夠結(jié)合每個漢字的不同視覺分辨難度,對文本串權(quán)重計算方法進行改進成為亟需解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提出一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法及裝置,使得文本串的視覺密度、文本串和字符的易識別程度能夠?qū)?jīng)典TF*IDF的文本串權(quán)重產(chǎn)生影響。
[0006]為達此目的,本發(fā)明采用以下技術(shù)方案:
一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法,包括如下步驟:
構(gòu)造文檔集合并統(tǒng)計詞數(shù)據(jù)步驟SllO:構(gòu)建文檔集合,并得到文本串的統(tǒng)計數(shù)據(jù),具體包括:
文檔集合構(gòu)建子步驟Slll:收集視頻信息庫中的視頻標題,從查詢?nèi)罩局须S機取出等量的用戶輸入的查詢串,將這兩部分文本一起作為下一步要處理的文檔集合;
數(shù)據(jù)統(tǒng)計子步驟S112:切分所述文檔集合中的每個文檔,每個文檔經(jīng)過切分后得到一個文本串序列,統(tǒng)計每個文本串出現(xiàn)在單個文檔中的頻次、每個文本串出現(xiàn)在文檔集合中的總頻次,對出現(xiàn)在文本串中的所有漢字統(tǒng)計其筆畫數(shù)量,如果不是漢字,則按照一畫統(tǒng)計;
中間權(quán)重結(jié)果計算步驟S120:對需要計算文本串權(quán)重的待測文檔D進行切詞,得到一個由k個文本串組成的序列,通過如下步驟分別得到幾種中間結(jié)果權(quán)重:
TF*IDF值計算子步驟S121:對所述文本串序列中的文本串Ti采用公式(I)計算其TF.1DF 值,其中 KiSk,
【權(quán)利要求】
1.一種結(jié)合視覺分辨難度的文本串權(quán)重計算方法,包括如下步驟: 構(gòu)造文檔集合并統(tǒng)計詞數(shù)據(jù)步驟Slio:構(gòu)建文檔集合,并得到文本串的統(tǒng)計數(shù)據(jù),具體包括: 文檔集合構(gòu)建子步驟Slll:收集視頻信息庫中的視頻標題,從查詢?nèi)罩局须S機取出等量的用戶輸入的查詢串,將這兩部分文本一起作為下一步要處理的文檔集合; 數(shù)據(jù)統(tǒng)計子步驟S112:切分所述文檔集合中的每個文檔,每個文檔經(jīng)過切分后得到一個文本串序列,統(tǒng)計每個文本串出現(xiàn)在單個文檔中的頻次、每個文本串出現(xiàn)在文檔集合中的總頻次,對出現(xiàn)在文本串中的所有漢字統(tǒng)計其筆畫數(shù)量,如果不是漢字,則按照一畫統(tǒng)計; 中間權(quán)重結(jié)果計算步驟S120:對需要計算文本串權(quán)重的待測文檔D進行切詞,得到一個由k個文本串組成的序列,通過如下步驟分別得到幾種中間結(jié)果權(quán)重: TF*IDF值計算子步驟S121:對所述文本串序列中的文本串Ti采用公式(I)計算其TF.1DF 值,其中 1≤i≤Sk,
2.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法,其特征在于: 在視覺密度計算子步驟中,fi=l.3, fm=l.2。
3.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法,其特征在于: 在易識別度計算子步驟中,Yi=1- 2,ym= 1.2。
4.根據(jù)權(quán)利要求1所述的結(jié)合視覺分辨難度的文本串權(quán)重計算方法,其特征在于: 在易識別度計算子步驟中,u=9.7, f=3.5。
5.根據(jù)權(quán)利要求1,其特征在于: 在綜合權(quán)重計算步驟中,β, Jy均為?。
6.一種結(jié)合視覺分辨難度的文本串權(quán)重計算裝置,包括如下單元: 構(gòu)造文檔集合并統(tǒng)計詞數(shù)據(jù)單元:構(gòu)建文檔集合,并得到文本串的統(tǒng)計數(shù)據(jù),具體包括: 文檔集合構(gòu)建子單元:收集視頻信息庫中的視頻標題,從查詢?nèi)罩局须S機取出等量的用戶輸入的查詢串,將這兩部分文本一起作為下一步要處理的文檔集合; 數(shù)據(jù)統(tǒng)計子單元:切分所述文檔集合中的每個文檔,每個文檔經(jīng)過切分后得到一個文本串序列,統(tǒng)計每個文本串出現(xiàn)在單個文檔中的頻次、每個文本串出現(xiàn)在文檔集合中的總頻次,對出現(xiàn)在文本串中的所有漢字統(tǒng)計其筆畫數(shù)量,如果不是漢字,則按照一畫統(tǒng)計; 中間權(quán)重結(jié)果計算單元:對需要計算文本串權(quán)重的待測文檔D進行切詞,得到一個由k個文本串組成的序列,通過如下單元分別得到幾種中間結(jié)果權(quán)重: TF-1DF值計算子單元:對所述文本串序列中的文本串Ti采用公式(I)計算其TF*IDF值,其中I≤i≤k,
7.根據(jù)權(quán)利要求6所述的結(jié)合視覺分辨難度的文本串權(quán)重計算裝置,其特征在于: 在視覺密度計算子單元中,fi=l.3, fm=l.2。
8.根據(jù)權(quán)利要求6所述的結(jié)合視覺分辨難度的文本串權(quán)重計算裝置,其特征在于: 在易識別度計算子單元中,Yi=1- 2,ym= 1.2。
9.根據(jù)權(quán)利要求6所述的結(jié)合視覺分辨難度的文本串權(quán)重計算裝置,其特征在于: 在易識別度計算子單元中,u=9.7, f=3.5。
10.根據(jù)權(quán)利要求6,其特征在于: 在綜合權(quán)重計算單元中,P, Jy均為?。
【文檔編號】G06F17/30GK103744900SQ201310725839
【公開日】2014年4月23日 申請日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】劉偉, 姚鍵, 潘柏宇, 盧述奇 申請人:合一網(wǎng)絡(luò)技術(shù)(北京)有限公司