r>[0127] 分別獲取該投放賬號的每篇文章的內(nèi)容分類的過程包括:對于該投放賬號所發(fā)表 的任意一篇文章,對該篇文章進行分詞,得到該篇文章的至少一個詞語;對于該篇文章的至 少一個詞語中任一詞語,根據(jù)該詞語在該篇文章中出現(xiàn)的次數(shù)獲取該詞語的出現(xiàn)頻率,并 根據(jù)所有文章中包含該詞語的文章個數(shù)獲取該詞語的逆文檔頻率;根據(jù)每個詞語的出現(xiàn)頻 率和逆文檔頻率,以及預(yù)先訓(xùn)練的所有類別的類別分類器,獲取該篇文章屬于每個類別的 權(quán)重;根據(jù)該篇文章屬于每個類別的權(quán)重,獲取權(quán)重最大的類別作為該篇文章的內(nèi)容分類。 其中,可以使用普通分詞詞典對該篇文章進行分詞;進一步的,為提高分詞的準(zhǔn)確率,還可 以使用普通分詞詞典與自定義分詞詞典結(jié)合的方式對該篇文章進行分詞,該自定義分詞詞 典可以包含昵稱、自定義標(biāo)簽等詞語,此時還可以結(jié)合預(yù)先設(shè)置的普通分詞詞典和自定義 分詞詞典的優(yōu)先級進行分詞,在此不再一一贅述。詞語的出現(xiàn)頻率等于該詞語在該篇文章 中出現(xiàn)的次數(shù),詞語的逆文檔頻率可以等于所有文章中包含該詞語的文章個數(shù)的倒數(shù)。通 過對該篇文章進行分詞,能夠清洗該篇文章中標(biāo)點符號以及不具有含義的文字等,從而得 到至少一個有含義的詞語。
[0128] 可以基于通用SVM算法,通過參數(shù)定制的方式,分別訓(xùn)練生成每個類別的類別分類 器;訓(xùn)練類別分類器的過程包括:訓(xùn)練任一類別的類別分類器時,獲取P篇文章樣本和每篇 文章樣本的類別值,屬于該類別的文章樣本占 P篇文章樣本的一半;P>1;從P篇文章樣本中 隨機選取第二個數(shù)篇文章,并分別獲取第二個數(shù)篇文章中每篇文章的至少一個詞語、每個 詞語的出現(xiàn)頻率和每個詞語的逆文檔頻率;將第二個數(shù)篇文章中每篇文章的至少一個詞 語、每個詞語的出現(xiàn)頻率和每個詞語的逆文檔頻率,以及每篇文章樣本的類別值,輸入至預(yù) 設(shè)第一核函數(shù)和第一模型參數(shù)的第一 SVM分類器進行訓(xùn)練,得到該類別的類別分類器;將P 篇文章樣本中除第二個數(shù)篇文章之外的測試文章分別輸入到該類別的類別分類器,得到測 試文章的分類結(jié)果;根據(jù)測試文章的分類結(jié)果和類別值,判斷分類差異是否大于預(yù)設(shè)第一 分類閾值;如果小于,訓(xùn)練結(jié)束;否則,修改第一核函數(shù)和/或第一模型參數(shù),重新執(zhí)行SVM分 類器訓(xùn)練、測試文章分類和分類差異判斷過程。其中,為了提高訓(xùn)練的準(zhǔn)確率,P-般大于 500;第二個數(shù)一般占 P的80%以上;當(dāng)文章樣本屬于該類別時,該文章樣本的類別值為1,否 則為〇;初始模型參數(shù)中懲罰系數(shù)c= 1,新特征空間的分布控制系數(shù)Gamma = 8,核函數(shù)=徑 向基函數(shù);分別獲取第二個數(shù)篇文章中每篇文章的至少一個詞語、每個詞語的出現(xiàn)頻率和 每個詞語的逆文檔頻率與之前分別獲取該投放賬號的每篇文章的內(nèi)容分類的過程中分詞、 獲取出現(xiàn)頻率和逆文檔頻率的過程類似,在此不再一一贅述。
[0129] 分別獲取該投放賬號所發(fā)表的每篇文章的權(quán)重的過程包括:對于該投放賬號所發(fā) 表的任意一篇文章,獲取該篇文章的轉(zhuǎn)發(fā)數(shù)和所有文章的最高轉(zhuǎn)發(fā)數(shù);將該篇文章的轉(zhuǎn)發(fā) 數(shù)除以最高轉(zhuǎn)發(fā)數(shù),得到轉(zhuǎn)發(fā)數(shù)加權(quán);獲取該篇文章的評論數(shù)和所有文章的最高評論數(shù);將 該篇文章的評論數(shù)除以最高評論數(shù),得到評論數(shù)加權(quán);根據(jù)該篇文章的發(fā)表時間獲取該篇 文章的時間加權(quán);獲取轉(zhuǎn)發(fā)數(shù)加權(quán)、評論數(shù)加權(quán)和時間加權(quán)之積,得到該篇文章的權(quán)重。其 中,時間加權(quán)的計算方式可以預(yù)先設(shè)置,如設(shè)定發(fā)表時間在一個月以內(nèi)的時間加權(quán)為1,設(shè) 定發(fā)表時間在一個月至半年之間的時間加權(quán)為0.7,設(shè)定發(fā)表時間在半年以外的時間加權(quán) 為0.3等,也可以設(shè)定時間加權(quán)的其他計算方式,在此不做限制。
[0130] 分別獲取每個投放賬號的影響領(lǐng)域的過程包括:將該投放賬號所發(fā)表的所有文章 中相同內(nèi)容分類的文章的權(quán)重求和,得到每個內(nèi)容分類的匯總權(quán)值;將該投放賬號所發(fā)表 的所有文章的權(quán)重求和,得到所有類別的匯總權(quán)值;分別將每個內(nèi)容分類的匯總權(quán)值除以 所有類別的匯總權(quán)值,得到每個內(nèi)容分類的歸一化權(quán)重值;從每個內(nèi)容分類的歸一化權(quán)重 值中,獲取預(yù)設(shè)第三個數(shù)個較大的歸一化權(quán)重值;根據(jù)第三個數(shù)個較大的歸一化權(quán)重值對 應(yīng)的內(nèi)容分類確定該投放賬號的影響領(lǐng)域。其中,第三個數(shù)可以根據(jù)需要設(shè)定,如設(shè)置為3 等,在此不做限制。
[0131] 步驟103,分別獲取每個投放賬號在各自影響領(lǐng)域下的影響力。
[0132] 在本實施例中,通過步驟103獲取影響力的過程包括:對于任一賬號的任一影響領(lǐng) 域,獲取屬于該影響領(lǐng)域的分類文章組;根據(jù)分類文章組中每篇文章的轉(zhuǎn)發(fā)數(shù),獲取轉(zhuǎn)發(fā)中 位數(shù);獲取該投放賬號的賬號真粉率;根據(jù)賬號真粉率、該投放賬號的粉絲數(shù)、所有投放賬 號的個數(shù)、和預(yù)設(shè)阻尼系數(shù),獲取該投放賬號的PR值;根據(jù)該投放賬號的PR值、粉絲數(shù)、轉(zhuǎn)發(fā) 中位數(shù)和提及數(shù),獲取該投放賬號在該影響領(lǐng)域下的影響力。
[0133] 具體的,通過步驟102確定所有投放賬號的影響領(lǐng)域以及每個投放賬號所發(fā)表的 每篇文章的內(nèi)容分類后,可以將同一投放賬號的內(nèi)容分類與影響領(lǐng)域進行匹配,確定每篇 文章的影響領(lǐng)域。獲取某影響領(lǐng)域的影響力時,從所有文章中選取屬于該影響領(lǐng)域的文章 即可。
[0134] 獲取該投放賬號的賬號真粉率的過程,包括:對于該投放賬號的所有粉絲中任一 粉絲,獲取該粉絲的粉絲特征信息,粉絲特征信息包括粉絲昵稱中包含的英文字母的個數(shù)、 粉絲昵稱中包含的數(shù)字的個數(shù)、個人描述的字?jǐn)?shù)、是否有頭像、收藏數(shù)、關(guān)注數(shù)、粉絲數(shù)、微 博數(shù)、關(guān)注與粉絲之比中的一種或多種;分別將該粉絲的粉絲特征信息與預(yù)設(shè)基礎(chǔ)規(guī)則進 行匹配,判斷該粉絲是否屬于僵尸粉;當(dāng)該粉絲不屬于僵尸粉時,將該粉絲的粉絲特征信息 輸入到預(yù)設(shè)僵尸粉分類器,獲取該粉絲的真粉率;當(dāng)該粉絲屬于僵尸粉時,獲取值為〇的該 粉絲的真粉率;獲取該投放賬號所有粉絲的真粉率之和,得到總真粉率;將總真粉率除以該 投放賬號的粉絲個數(shù),得到該投放賬號的賬號真粉率。其中,預(yù)設(shè)基礎(chǔ)規(guī)則可以設(shè)定文章 數(shù)、粉絲數(shù)、關(guān)注與粉絲之比、微博名稱與真粉率的關(guān)系。
[0135]可以基于通用SVM算法,通過參數(shù)定制的方式,分別訓(xùn)練生成僵尸粉分類器;具體 的,僵尸粉分類器的訓(xùn)練過程包括:獲取Q個粉絲樣本、每個粉絲樣本的粉絲特征信息和真 粉值;從Q個粉絲樣本中隨機選取第四個數(shù)個粉絲樣本,將第四個數(shù)個粉絲樣本中每個粉絲 樣本的粉絲特征信息和真粉值輸入預(yù)設(shè)第二核函數(shù)和第二模型參數(shù)的第二SVM分類器進行 訓(xùn)練,得到僵尸粉分類器;將Q個粉絲樣本中除上述第四個數(shù)個粉絲樣本之外的粉絲樣本分 別輸入到僵尸粉分類器,得到僵尸粉分類結(jié)果;根據(jù)僵尸粉分類結(jié)果和真粉值,判斷分類差 異是否大于預(yù)設(shè)第二分類閾值;如果小于,訓(xùn)練結(jié)束;否則,修改第二核函數(shù)和/或第二模型 參數(shù),重新執(zhí)行SVM分類器訓(xùn)練、測試文章分類和分類差異判斷過程。為了提高訓(xùn)練的準(zhǔn)確 率,Q-般大于500;第四個數(shù)一般占 Q的80%以上;當(dāng)粉絲為真粉時,該粉絲的真粉值為1,否 則為〇;初始模型參數(shù)中懲罰系數(shù)c= 1,新特征空間的分布控制系數(shù)Gamma = 8,核函數(shù)=徑 向基函數(shù)。
[0136]獲取投放賬號的PR值的過程包括:獲取該投放賬號t的初始PR值P/f1,
),fol lowers_countt為該投放賬號t的粉絲數(shù), TFRt為該投放賬號t的賬號真粉率;預(yù)設(shè)所有投放賬號的個數(shù)為y,y 2 1,y 2 t 2 1;根據(jù)Pif > 和y獲取該投放賬號t第i輪迭代的PR值P/<
d為預(yù)設(shè)阻尼系數(shù),d>0; 為投放賬號j第i-1輪迭代的PR值;friends_countj為投放賬 號j的關(guān)注數(shù);i 2 l,u為預(yù)設(shè)迭代閾值;根據(jù)該投放賬號t第i輪迭代的PR值P/f,獲取 整體PR差異A PRi,
1;判斷Δ PRi是否小于預(yù)設(shè)差異閾值;如果小 于,根據(jù)迭代結(jié)果獲取該投放賬號的PR值;否則,判斷迭代次數(shù)是否超過預(yù)設(shè)迭代閾值,如 果超過預(yù)設(shè)迭代閾值,計算結(jié)束;如果未超過預(yù)設(shè)迭代閾值,將i置為i+Ι后重復(fù)第i輪迭代 的PR值的計算、整體差異的計算和判斷過程。其中,如果某個賬號沒有落在friends_countj
內(nèi),該賬號? -為〇;根據(jù)迭代結(jié)果獲取投放賬號的PR值時,該投放賬號的PR - - j 值為最后一次迭代的PR值。
[0137] 獲取投放賬號在該影響領(lǐng)域下的影響力的過程包括:獲取該投放賬號t的粉絲數(shù) 的標(biāo)準(zhǔn)化值fi,fi = log(followers_countt+e) ;followers_countt為該投放賬號t的粉絲 數(shù);獲取該投放賬號1:的提及數(shù)的標(biāo)準(zhǔn)化值€2,€2=1〇8(>6€6^1106_(3011111^+6) ;16€6161106_ countt為該投放賬號t的提及數(shù);獲取該投放賬號t的轉(zhuǎn)發(fā)中位數(shù)的標(biāo)準(zhǔn)化值f3,f3 = 1 og (1116(^〇81:_(3〇11111^+6);獲取該投放賬號1:的?1?值的標(biāo)準(zhǔn)化值€4,€4=1〇8(?1?+6) ;?1?為該投放 賬號t的PR值;獲取f 2的歸一化值j
^"上:⑶:獲取心的歸一化值^^ I I I.
>0,匕2〈0;對;1^1、;^/2、;^ /3和€4進行線性組合,得到初步得分8〇〇^,8(3〇^ = a3*fi+b3*f / 2+03*1^ 3+d3*f4; a3、b3、C3、(13均大于0;對初步得分score進行對數(shù)化處理,得到 logistic_score :
;a4>〇,b4<〇;對l〇gistic_score 進 tx 分 值變化,得到該投放賬號在該影響領(lǐng)域下的影響力為 自然常數(shù)。在本實施例中,上述參數(shù)可以根據(jù)影響力數(shù)值的賬號排序結(jié)果,與人工選定的賬 號優(yōu)劣排序結(jié)果進行比對;根據(jù)試驗得到最匹配的參數(shù)。特別的,為了提高影響力評估的準(zhǔn) 確性,可以對各參數(shù)進行以下設(shè)定:ai = 0 · 355,bi = -l · 732,a2 = 0 · 281,b2 = _0 · 54,a3 = 0 · 4122,b3 = 0 · 3199, C3 = 0 · 2545,d3 = 0 · 0024,a4=0 · 231,b4 = -0 · 393。
[0138] 步驟104,根據(jù)待投放廣告要求的投放類別對應(yīng)的歸一化需求強度值和每個投放 賬號在各自影響領(lǐng)域下的影響力,獲取待投放廣告與每個投放賬號的匹配度。
[0139] 在本實施例中,通過步驟104獲取匹配度的過程包括:將預(yù)設(shè)Μ個類別中除至少一 個投放類別外其他類別的歸一化需求強度值設(shè)置為〇;將預(yù)設(shè)Μ個類別中除每個投放賬號的 各自影響領(lǐng)域外的其他類別的影響力設(shè)置為〇;對于任意賬號,獲取Σ?'?Λη,,adSj為 類別j的歸一化需求強度值,acSj該投放賬號在類別j下的影響力;M2 1,M2 1;獲取
t積,得到向量積;將/除以向量積,得到該投放賬 號的匹配度。
[0140] 步驟105,由匹配度高到低依次從所