免疫系統(tǒng)在搜索引擎中的應(yīng)用的制作方法

文檔序號(hào)：6469563閱讀：169來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：免疫系統(tǒng)在搜索引擎中的應(yīng)用的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及信息處理領(lǐng)域，具體的說，涉及免疫系統(tǒng)在搜索引擎中的應(yīng)用。
背景技術(shù)：
：近年來，隨著Internet規(guī)模的迅速增長，網(wǎng)絡(luò)上的信息資源也隨之迅速膨脹。為了快速、有效地獲得網(wǎng)上信息，信息檢索技術(shù)得以迅速發(fā)展，人們開發(fā)了各種不同的搜索引擎。它們能以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對(duì)信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)。傳統(tǒng)搜索引擎按其工作方式主要可分為如下三種1、全文搜索引擎(FullTextSearchEngine)全文搜索引擎的典型代表有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut、百度(Baidu)等。它們都通過從互聯(lián)網(wǎng)上所提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。該類搜索引擎搜集保存的是互聯(lián)網(wǎng)上各網(wǎng)站的每一個(gè)網(wǎng)頁的全部內(nèi)容，服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)，其優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù)，缺點(diǎn)是返回信息過多，有很多無關(guān)信息，用戶必須從結(jié)果中進(jìn)行篩選。2、目錄索引(SearchIndex/Directory)目錄索引雖然有搜索功能，但不是真正的搜索引擎，僅僅是按目錄分類的網(wǎng)站鏈接列表而已。目錄索引中最具代表性的是Yahoo(雅虎)、0penDirectoryProject(DM0Z)、LookSmart、About、搜狐、新浪、網(wǎng)易搜索等。該類搜索引擎只保存互聯(lián)網(wǎng)上各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要，以人工方式或半自動(dòng)方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中，其信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?，所以信息?zhǔn)確、導(dǎo)航質(zhì)量高，缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。3、元搜索引擎(METASearchEngine)元搜索引擎在接受用戶查詢請(qǐng)求的同時(shí)，也能在其它多個(gè)引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo、搜星搜索引擎等。這類搜索引擎沒有自己的數(shù)據(jù)，它先將用戶的查詢請(qǐng)求同時(shí)遞交給多個(gè)搜索引擎，再對(duì)返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理，最后作為自己的結(jié)果返回給用戶。其服務(wù)方式為面向網(wǎng)頁的全文檢索，主要優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全，缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能，用戶需要做更多的篩選。傳統(tǒng)的全文檢索技術(shù)是基于關(guān)鍵詞匹配的檢索，往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象，特別是在網(wǎng)絡(luò)信息時(shí)代，利用關(guān)鍵詞匹配很難滿足人們檢索的要求。因此，人們開始研究智能檢索技術(shù)，開發(fā)出了一些具有智能能力的搜索引擎。智能型搜索引擎運(yùn)用人工智能技術(shù)把信息檢索從目前基于關(guān)鍵詞檢索的層面提高到基于知識(shí)(或概念)檢索的層面，突破了關(guān)鍵詞檢索限于形式的缺陷，可準(zhǔn)確定位搜索結(jié)果的范圍，從而提高了檢索效率并能對(duì)用戶檢索請(qǐng)求實(shí)現(xiàn)合理的聯(lián)想、擴(kuò)充和檢驗(yàn)，這是通過對(duì)搜索內(nèi)容相關(guān)性的自動(dòng)學(xué)習(xí)，不斷提高搜索結(jié)果的可用度來實(shí)現(xiàn)的。但是目前的搜索引擎并不能完全滿足人們檢索信息的要求，一方面搜索引擎對(duì)信息的檢準(zhǔn)率、檢全率不能令人滿意，搜索引擎對(duì)搜索結(jié)果的排序也不夠客觀、科學(xué)。往往對(duì)一個(gè)關(guān)鍵詞的搜索，動(dòng)輒就能得到數(shù)以百計(jì)的結(jié)果。另一方面，當(dāng)前的搜索引擎在學(xué)習(xí)、識(shí)別用戶的信息檢索模式等方面能力還比較欠缺，并不能為用戶提供很好的個(gè)性化服務(wù)。信息過載使得用戶對(duì)相關(guān)信息的獲取越來越困難，為了查找有用的信息，用戶不得不逐一查看每一條信息。信息過濾系統(tǒng)根據(jù)用戶的反饋建立用戶模板，通過屏蔽無關(guān)信息提高信息查詢的效率，可有效降低用戶的負(fù)擔(dān)。MaloneT.W.等人提出了信息過濾的3種方式內(nèi)容過濾、協(xié)作過濾和經(jīng)濟(jì)過濾[2]。基于內(nèi)容的過濾方式通過查找文檔中有趣的詞條實(shí)現(xiàn)，通過發(fā)現(xiàn)用戶感興趣的詞條歷史記錄查詢新的用戶感興趣的文檔；協(xié)作過濾通過用戶推薦實(shí)現(xiàn)，如果一篇文檔被用戶推薦，則該文檔將被賦予更高的權(quán)重；經(jīng)濟(jì)過濾主要是基于代價(jià)估算的思想。WidyantoroD.H.等人提出了一個(gè)動(dòng)態(tài)學(xué)習(xí)用戶興趣的模型。將用戶的興趣分為短期和長期兩種，短期興趣變化較快，長期興趣變化較慢。長期興趣用l個(gè)向量描述，短期興趣用2個(gè)向量描述。綜合模型為短期興趣和長期興趣按照一定權(quán)重的疊加。但是，人為地將用戶興趣進(jìn)行分割，違反了信息的公平性，是不可取的。deKroonH.C.M.等人利用多模板實(shí)現(xiàn)對(duì)文檔的預(yù)測(cè)。綜合模板通過Rocchio方法學(xué)習(xí)獲得，其它子模板通過手工設(shè)置對(duì)文檔進(jìn)行分類，對(duì)文檔的最終評(píng)價(jià)是各個(gè)模板評(píng)價(jià)的綜合。因而，該模型缺乏靈活性，需要耗費(fèi)大量的人力，不適合普通用戶使用。免疫是機(jī)體針對(duì)外源物質(zhì)的一種反應(yīng)，其作用是識(shí)別和排除抗原性異物，從而維持機(jī)體的生理平衡。免疫系統(tǒng)由免疫細(xì)胞、淋巴組織、淋巴器官以及單核吞噬細(xì)胞組成，具有防御、監(jiān)視、消除外來異體物質(zhì)(抗原)和監(jiān)視、清除體內(nèi)衰老細(xì)胞及突變細(xì)胞的生理作用，并可穩(wěn)定和保持機(jī)體內(nèi)環(huán)境的平衡統(tǒng)一，即在體內(nèi)實(shí)現(xiàn)免疫防御、免疫監(jiān)視和免疫穩(wěn)定的三大功能[3]。免疫系統(tǒng)的主要成分是免疫細(xì)胞中的淋巴細(xì)胞，淋巴細(xì)胞不僅經(jīng)血液和淋巴環(huán)流全身引起免疫的分子水平、細(xì)胞水平及器官的功能活動(dòng)，而且將免疫系統(tǒng)連成一個(gè)功能整體實(shí)現(xiàn)免疫的作用。當(dāng)機(jī)體受抗原剌激時(shí)，由淋巴細(xì)胞識(shí)別抗原，引起淋巴細(xì)胞發(fā)生一系列的反應(yīng)過程，對(duì)抗原進(jìn)行殺傷或產(chǎn)生抗體而出現(xiàn)特異性效應(yīng)，稱為免疫應(yīng)答。免疫應(yīng)答是免疫功能的基本形式。淋巴組織又稱免疫組織，是以網(wǎng)狀組織為基礎(chǔ)，網(wǎng)孔中充滿大量的淋巴細(xì)胞和一些巨噬細(xì)胞、漿細(xì)胞等。淋巴組織中的淋巴細(xì)胞具有特異性、轉(zhuǎn)化性和記憶性。按其個(gè)體產(chǎn)生、表面分子和功能的不同，可將淋巴細(xì)胞分為B細(xì)胞和T細(xì)胞。T細(xì)胞是在胸腺中成熟的淋巴細(xì)胞，是血液和再循環(huán)中的主要淋巴細(xì)胞。B細(xì)胞是在骨髓中發(fā)育成熟的淋巴細(xì)胞，B細(xì)胞受抗原剌激后，可產(chǎn)生抗體。生物免疫系統(tǒng)具有強(qiáng)大的信息處理機(jī)制，這些機(jī)制對(duì)于解決信息檢索和過濾提供了基本的手段，主要表現(xiàn)在(1)分布性。生物免疫系統(tǒng)沒有中央控制器，它由廣泛分布于全身的免疫細(xì)胞組成，互聯(lián)網(wǎng)中的信息也是分布于世界各地的，我們的信息檢索也需要分布在各地的服務(wù)器來提供快捷的服務(wù)。分布式系統(tǒng)有很多優(yōu)點(diǎn)，不但可以容錯(cuò)而且可以并行處理。(2)自適應(yīng)性。自然界中存在的抗原種類遠(yuǎn)遠(yuǎn)多于生物體內(nèi)的抗體種類，并且侵入生物體內(nèi)的抗原具有個(gè)不可預(yù)知性。但是免疫系統(tǒng)能通過免疫細(xì)胞的增殖和分化作用不斷地產(chǎn)生新的抗體，最終生成適合的抗體消滅抗原，從而動(dòng)態(tài)地適應(yīng)外界環(huán)境的變化。網(wǎng)上的信息以及用戶的喜好也在不停的變化，系統(tǒng)應(yīng)該能自動(dòng)地調(diào)整以適應(yīng)用戶的要求。(3)動(dòng)態(tài)平衡性。在免疫應(yīng)答過程中，免疫系統(tǒng)內(nèi)部各免疫細(xì)胞之間、抗原與抗體、抗體與抗體之間形成一個(gè)相互作用的動(dòng)態(tài)平衡網(wǎng)絡(luò)體系，使免疫應(yīng)答維持在合適的強(qiáng)度。我們的信息檢索往往面對(duì)的結(jié)果是大量的，可其中對(duì)用戶有用的可能只有幾條，因此信息免疫系統(tǒng)也應(yīng)該能對(duì)搜索結(jié)果進(jìn)行必要處理，并保持動(dòng)態(tài)平衡。(4)具有學(xué)習(xí)和記憶功能。當(dāng)抗原第一次侵入生物體內(nèi)就會(huì)引發(fā)初次免疫應(yīng)答，使免疫系統(tǒng)產(chǎn)生抗體消滅抗原，在這個(gè)過程中，免疫系統(tǒng)通過學(xué)習(xí)抗原產(chǎn)生記憶細(xì)胞。當(dāng)相同類型的抗原再次入侵時(shí)，二次免疫應(yīng)答就被觸發(fā)，免疫系統(tǒng)通過喚醒記憶細(xì)胞，在比初次免疫應(yīng)答短的時(shí)間周期內(nèi)產(chǎn)生大量的抗體消滅抗原。一個(gè)成功的信息免疫系統(tǒng)也應(yīng)該能夠?qū)W習(xí)用戶的查詢模式和喜好，并對(duì)用戶的行為進(jìn)行記憶。(5)具有自我識(shí)別功能。生物免疫系統(tǒng)具有辨認(rèn)"自己"和"非已"的特殊識(shí)別能力，對(duì)于"非己"的抗原，免疫系統(tǒng)能啟動(dòng)免疫應(yīng)答予以排除，而對(duì)于"自己"的組織細(xì)胞，免疫系統(tǒng)能保持免疫無應(yīng)答，形成免疫耐受(immunetolerance)，維護(hù)生物體內(nèi)環(huán)境的穩(wěn)定。在信息檢索中，需要對(duì)查到的結(jié)果進(jìn)行識(shí)別過濾，只把用戶感興趣、所需要的信息反饋給用戶；同時(shí)也可通過不斷學(xué)習(xí)，提取出用戶的檢索模式和感興趣的內(nèi)容。生物免疫系統(tǒng)具有分布性、自適應(yīng)性、動(dòng)態(tài)平衡性、學(xué)習(xí)和記憶能力、自我識(shí)別能力等特性，這為實(shí)現(xiàn)信息的智能化處理提供了有效的途徑。
發(fā)明內(nèi)容本發(fā)明提出一種新的基于免疫算法的信息免疫系統(tǒng)(InformationImmuneSyetem:IIS)，根據(jù)免疫細(xì)胞的特異性，利用不同的染色體描述用戶需求，并專注于對(duì)無關(guān)信息的處理，引入了向量空間模型，并通過實(shí)驗(yàn)與其他過濾方法進(jìn)行了對(duì)比。本發(fā)明所述的技術(shù)方案如下所述。本發(fā)明所述的免疫系統(tǒng)在搜索引擎中的應(yīng)用主要采用如下步驟來實(shí)現(xiàn)問題定義，把信息檢索中存在的問題，用免疫系統(tǒng)的免疫思想來解決，本發(fā)明把檢索系統(tǒng)中的概念和操作同免疫系統(tǒng)中的概念和操作對(duì)應(yīng)起來，初步確定免疫系統(tǒng)的變量、常量、函數(shù)和參數(shù)；信息預(yù)處理，本發(fā)明的信息免疫系統(tǒng)是基于搜索引擎來實(shí)現(xiàn)的，面向的對(duì)象都是半結(jié)構(gòu)化的網(wǎng)頁，對(duì)這些網(wǎng)頁信息進(jìn)行免疫處理之前，首先需要對(duì)這些網(wǎng)頁進(jìn)行預(yù)處理，主要包括特征提取、分詞和網(wǎng)頁特征化表示。設(shè)計(jì)信息免疫算法，將所描述的問題和要使用的免疫原理結(jié)合起來，設(shè)計(jì)模型、過程和算法，算法中包括親和力計(jì)算、抗原樣本訓(xùn)練、克隆變異和否定選擇。系統(tǒng)設(shè)計(jì)，對(duì)預(yù)處理后的網(wǎng)頁信息進(jìn)行訓(xùn)練，生成免疫規(guī)則，在免疫規(guī)則的指導(dǎo)下，利用信息免疫算法對(duì)搜索結(jié)果進(jìn)行免疫過濾，得到用戶感興趣的搜索結(jié)果。本發(fā)明主要把免疫系統(tǒng)的信息處理機(jī)制引入信息檢索系統(tǒng)中，利用免疫系統(tǒng)的學(xué)習(xí)、記憶和自我識(shí)別機(jī)理來解決信息檢索中存在的搜索結(jié)果過多的問題。通過實(shí)驗(yàn)測(cè)試，取5得了較好的效果'圖l是本發(fā)明圖2是本發(fā)明圖3是本發(fā)明圖4是本發(fā)明圖5是本發(fā)明圖6是本發(fā)明圖7是本發(fā)明實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信息免疫系統(tǒng)的模型結(jié)構(gòu)息免疫系統(tǒng)的類息免疫系統(tǒng)的實(shí)現(xiàn)框架；息免疫系統(tǒng)的特征詞索引圖息免疫系統(tǒng)的免疫搜索界面息免疫系統(tǒng)的百度搜索界面息免疫系統(tǒng)的用戶反饋界面,具體實(shí)施例方式現(xiàn)依據(jù)附圖，對(duì)本發(fā)明做進(jìn)一步的描述。實(shí)施例1問題定義檢索系統(tǒng)檢索到的信息中包含用戶感興趣的信息和用戶不感興趣的信息，往往用戶感興趣的信息只占很小一部分，這必然給用戶尋找自己感興趣的信息增加了難度。免疫系統(tǒng)保護(hù)機(jī)體免受外部細(xì)菌、病毒等的侵襲，能夠識(shí)別外來細(xì)胞或分子，然后從機(jī)體內(nèi)消除這些外部有害物質(zhì)，同時(shí)觀察身體內(nèi)異常細(xì)胞的出現(xiàn)，并清除已經(jīng)變異的細(xì)胞。如果把免疫系統(tǒng)引入信息檢索中，把用戶不感興趣的信息作為外來有害物質(zhì)，系統(tǒng)就可以對(duì)用戶不感興趣的信息進(jìn)行清除，方便用戶查找自己感興趣的信息。和免疫系統(tǒng)一樣，本發(fā)明所面臨的首要問題是如何定義自體/非自體，并進(jìn)行識(shí)別。自體/非自體在不同的領(lǐng)域內(nèi)有著不同的定義對(duì)于問題域D=U)，ir，抗原集合AgGD，自體集合SelfGAg，非自體集合NoselfGAg，有SelfUNoself=Ag，SelfnNonself=①。對(duì)于信息免疫系統(tǒng)而言，非自體代表用戶不感興趣的網(wǎng)頁信息，自體為用戶感興趣的網(wǎng)頁信息。檢測(cè)過程就是對(duì)一個(gè)模式IGD的分類，判斷它是自體還是非自體。對(duì)一個(gè)IGD，一個(gè)檢測(cè)器集合(免疫細(xì)胞、抗體等)BC:BC二{ai，a2，*"，ai}，aiG{0，l}k，k《1，iGN，N為自然數(shù)集合。一個(gè)匹配函數(shù)f:f(1，a)-MpGR|p>0Ap《l}，其中aGBC，R為實(shí)數(shù)集合，e為匹配閾值，由式(2_1)完成分類。'非自體，/(/,fl)2l-S、自體，o^zerw&e借鑒于生物免疫系統(tǒng)的信息處理機(jī)制，本發(fā)明建立了生物免疫系統(tǒng)與信息免疫系統(tǒng)的概念對(duì)應(yīng)關(guān)系。生物免疫系統(tǒng)和信息免疫系統(tǒng)的映射關(guān)系如表1所示。表1生物免疫系統(tǒng)和信息免疫系統(tǒng)的映射關(guān)系(2-1)生物免疫系統(tǒng)信息免疫系統(tǒng)抗原互聯(lián)網(wǎng)中的網(wǎng)頁(包括用戶感興趣和不感興趣網(wǎng)頁)6<table>tableseeoriginaldocumentpage7</column></row><table>本發(fā)明對(duì)生物免疫系統(tǒng)中所涉及的定義都可以通過以上映射關(guān)系映射到信息免疫系統(tǒng)。為方便下述的算法設(shè)計(jì)，這里先給出免疫系統(tǒng)的一些初始設(shè)定BC-初始為空的B細(xì)胞集〃bc為B細(xì)胞集中的B細(xì)胞，代表用戶不感興趣的信息，主要由網(wǎng)頁網(wǎng)址、標(biāo)題和關(guān)鍵字組成；B細(xì)胞分泌抗體MC-初始為空的記憶B細(xì)胞集〃mc為記憶B細(xì)胞集中的記憶細(xì)胞，代表被用戶確認(rèn)的不感興趣的信息，主要由網(wǎng)頁網(wǎng)址和標(biāo)題組成R-抗體二進(jìn)制表示Kt-初始記憶細(xì)胞數(shù)目Ka-親和力閥值e_匹配閾值Kl-克隆常量Km-變異常量Ag-抗原；代表用戶所面對(duì)的網(wǎng)頁信息自體集合SelfGAg，非自體集合NoselfGAg在信息免疫系統(tǒng)中，抗原即是網(wǎng)頁特征，其中非自體抗原為用戶不感興趣的網(wǎng)頁，自體抗原為用戶需要的網(wǎng)頁。因此，設(shè)計(jì)抗原特征結(jié)構(gòu)以及如何表示抗原是構(gòu)建本信息免疫系統(tǒng)的主要挑戰(zhàn)之一?？乖卣骷菍?duì)網(wǎng)頁特征的抽象，特征集的選取直接影響信息免疫模型的性能。特征集的選取必須遵循以下原則(l)特征集必須能夠精確地描述網(wǎng)頁特征；(2)特征集能夠區(qū)分自體(self，表示用戶需要的網(wǎng)頁)和非自體(nonself，表示用戶不感興趣的網(wǎng)頁)的行為；(3)特征集能夠容易編碼。因?yàn)楸景l(fā)明研究的是基于網(wǎng)絡(luò)信息的信息免疫系統(tǒng)，而網(wǎng)絡(luò)信息的基本單元是網(wǎng)頁，所以本發(fā)明所使用的抗原特征集是根據(jù)網(wǎng)頁的特征來構(gòu)建的。網(wǎng)絡(luò)信息往往表現(xiàn)出以下特性(l)隨機(jī)性由于網(wǎng)絡(luò)業(yè)務(wù)量的復(fù)雜多變以及用戶訪問網(wǎng)絡(luò)的隨意性，使得這些信息呈現(xiàn)很強(qiáng)的隨機(jī)性。(2)相關(guān)性單純的某個(gè)網(wǎng)頁往往不能完整地反映網(wǎng)絡(luò)信息，在較大的范圍內(nèi)表現(xiàn)出較強(qiáng)的相關(guān)性。因此，對(duì)網(wǎng)絡(luò)數(shù)據(jù)的處理，不能僅僅孤立地對(duì)某個(gè)網(wǎng)頁信息進(jìn)行處理，而必須綜合考慮某個(gè)范圍內(nèi)的特征，才能真正反映它們的具體屬性。因此，本發(fā)明采用多維向量空間表示抗原。下面給出抗原特征集的一些定義定義2.l可測(cè)度集設(shè)F為一組屬性值集合，包含所有網(wǎng)頁數(shù)據(jù)中可能出現(xiàn)的屬性值，例如網(wǎng)頁地址、標(biāo)題、關(guān)鍵字等，稱之為可測(cè)度集?？蓽y(cè)度集表明一個(gè)網(wǎng)頁數(shù)據(jù)的屬性集合，例如一個(gè)網(wǎng)頁數(shù)據(jù)的可測(cè)度集為(ur1，ti11e，key)，分別表示網(wǎng)頁的網(wǎng)址、標(biāo)題、關(guān)鍵字等屬性。網(wǎng)頁信息可以由一個(gè)三元組組成〈url，title,key〉，我們將重要的信息作為記錄屬性。用戶搜索形成網(wǎng)頁記錄后，網(wǎng)頁信息主要由網(wǎng)址、標(biāo)題、關(guān)鍵字組成，這些是網(wǎng)頁數(shù)據(jù)的必要屬性。為了挖掘?qū)傩灾g的關(guān)聯(lián)規(guī)則，并盡可能地減少規(guī)則冗余，本發(fā)明引入?yún)⒖剂考母拍?，用以表示網(wǎng)絡(luò)數(shù)據(jù)中重要的屬性。參考量集一般由網(wǎng)址、標(biāo)題組成。例如對(duì)于某種垃圾網(wǎng)頁，可以設(shè)定網(wǎng)址為參考量，然后計(jì)算其他網(wǎng)頁與參考量的關(guān)系。如果這種關(guān)系滿足一定的規(guī)則(例如網(wǎng)址相同)，則可認(rèn)為是非自體抗原。由此可見，參考量集的選擇十分重要。定義2.2參考量集設(shè)R為可測(cè)度集F的子集，其中包含的元素為可測(cè)度集的重要特征，稱之為參考量集。在本發(fā)明的信息免疫系統(tǒng)中記憶細(xì)胞可以作為抗原的參考量集。根據(jù)上述定義本發(fā)明給出抗原、B細(xì)胞和記憶細(xì)胞的形式化表示抗原文檔Ag二〈url，title，key〉，其中url，title,key即為抗原的基因；B細(xì)胞為用戶收集到的不感興趣的網(wǎng)頁信息，本發(fā)明表示為BC=〈url，title,key>Url=〈word!，word2，...，wordn>Title=〈word!，word2，...，wordn>key=〈word!，word2，...，wordm>記憶細(xì)胞也即參考量集MC=〈url，title〉。主要記憶一些用戶初始收集以及用戶后來反饋的垃圾網(wǎng)頁信息或用戶肯定不感興趣的網(wǎng)頁信息。用戶知識(shí)庫是提高對(duì)于指定檢索信息查準(zhǔn)率的關(guān)鍵技術(shù)，不同的用戶對(duì)于同一個(gè)檢索詞會(huì)有不同的理解和要求。若事先為每個(gè)用戶建立一個(gè)用戶模型，由用戶自己給出他所理解的一些關(guān)鍵詞的相關(guān)詞匯，這樣，在每次檢索時(shí)，搜索模塊就能綜合考慮用戶提交的關(guān)鍵詞和已存在于用戶模型中相應(yīng)的拓展開了的檢索詞，前者保證了檢索范圍不會(huì)太小，而后者則能保證檢索結(jié)果的相關(guān)性。用戶模型的獲取包括用戶主動(dòng)定制和系統(tǒng)自動(dòng)提取兩部分。用戶特征包括用戶經(jīng)常性的網(wǎng)絡(luò)行為特征和對(duì)信息需求的特征，用戶特征表中記錄下用戶感興趣的主題和不感興趣的主題，對(duì)每一個(gè)主題會(huì)賦予一個(gè)權(quán)值，表明用戶的關(guān)心程度。用一個(gè)關(guān)聯(lián)詞典存放關(guān)聯(lián)詞，包括與主題詞內(nèi)涵相同的近似性關(guān)聯(lián)詞和對(duì)主題詞外延加以限制的限制性關(guān)聯(lián)詞。用戶知識(shí)庫存放結(jié)果信息，知識(shí)庫中有相關(guān)信息資源(KEYWORD,URL)，用權(quán)值表征用戶對(duì)它的滿意程度及訪問頻度。8基因庫中存放著用戶不感興趣的各種網(wǎng)址、標(biāo)題和關(guān)鍵字，這些信息是信息免疫系統(tǒng)的基因，可以生成系統(tǒng)的各類抗體，組成系統(tǒng)的抗體規(guī)則庫。借鑒于生物免疫系統(tǒng)所具有的辨認(rèn)"自體"和"非自體"的特殊識(shí)別能力，可在信息免疫系統(tǒng)中為用戶提供識(shí)別感興趣和不感興趣信息的能力。用戶感興趣的信息可看作信息免疫系統(tǒng)的"自體"，不感興趣的信息則為系統(tǒng)的"非自體"。當(dāng)系統(tǒng)遇到"非自體"的不感興趣信息時(shí)，可啟動(dòng)免疫過濾機(jī)制自動(dòng)予以排除。本發(fā)明采用抗原和抗體同時(shí)進(jìn)行親和力比較的方法進(jìn)行識(shí)別"非自體"信息。同時(shí)為使系統(tǒng)能及時(shí)反映出用戶動(dòng)態(tài)變化的信息需求，系統(tǒng)也應(yīng)具有不斷學(xué)習(xí)和記憶不感興趣的信息的能力。為此，在系統(tǒng)設(shè)計(jì)中要解決好如下幾個(gè)問題(l)根據(jù)給定的用戶不感興趣信息作為訓(xùn)練抗原訓(xùn)練生成基本的免疫規(guī)則庫，使系統(tǒng)可對(duì)用戶不感興趣信息進(jìn)行過濾。規(guī)則庫中一般有兩類規(guī)則一類是用戶規(guī)定一定要起過濾作用的規(guī)則。當(dāng)信息進(jìn)入系統(tǒng)時(shí)，首先按照此類過濾規(guī)則排除不感興趣的信息，并將其存入特定保存區(qū)域，然后用戶可以對(duì)該區(qū)域的信息進(jìn)行檢查，反饋的結(jié)果將作為進(jìn)一步更新規(guī)則的基本依據(jù)。另一類是與用戶檢索要求相對(duì)應(yīng)的過濾規(guī)則，這類規(guī)則產(chǎn)生初始抗體并對(duì)"非自體"抗原進(jìn)行過濾。(2)為了識(shí)別出"自體"和"非自體"信息，則需要對(duì)網(wǎng)頁信息進(jìn)行特異識(shí)別。其基本思想是計(jì)算網(wǎng)頁信息與由基因庫中產(chǎn)生的免疫細(xì)胞的親和力，將親和力超過給定閾值的信息作為"非自體"抗原，否則作為"自體"抗原。(3)系統(tǒng)將用戶感興趣的"自體"抗原直接傳給用戶，在此基礎(chǔ)上用戶可對(duì)免疫結(jié)果進(jìn)行反饋。如果用戶對(duì)查詢結(jié)果感到滿意的話，則系統(tǒng)自動(dòng)對(duì)規(guī)則庫中相應(yīng)規(guī)則進(jìn)行分裂克隆，提升該規(guī)則的作用；反之則更新規(guī)則庫，降低相應(yīng)規(guī)則的作用。本發(fā)明所設(shè)計(jì)的信息免疫系統(tǒng)主要集中在兩個(gè)方面一個(gè)方面是信息免疫算法的設(shè)計(jì)，通過采用抗原和抗體同時(shí)進(jìn)行親和力比較的方法來識(shí)別"非自體"信息，可以提高系統(tǒng)的處理速度；另一方面為了使系統(tǒng)能及時(shí)反映出用戶動(dòng)態(tài)變化的信息需求，系統(tǒng)增加了記憶細(xì)胞，使系統(tǒng)具有學(xué)習(xí)和記憶的功能，極大地減少了用戶對(duì)系統(tǒng)的干涉。根據(jù)上述的思想，發(fā)明人已經(jīng)構(gòu)建出了一個(gè)基本的信息免疫系統(tǒng)構(gòu)架，其中主要包括信息預(yù)處理部分、免疫規(guī)則生成、信息免疫應(yīng)答和免疫記憶等功能，經(jīng)過實(shí)際運(yùn)行取得良好的效果。圖1和圖2分別是系統(tǒng)的模型結(jié)構(gòu)和類圖?；趫D1的免疫模型，發(fā)明人對(duì)各個(gè)模塊的功能做了些細(xì)化，畫除了信息免疫系統(tǒng)的類圖。下面簡述各模塊的主要功能。信息采集模塊信息的自動(dòng)采集是信息免疫系統(tǒng)的數(shù)據(jù)來源，它的功能是負(fù)責(zé)向遠(yuǎn)程服務(wù)器(即目標(biāo)網(wǎng)站)發(fā)送一個(gè)請(qǐng)求，然后取回相應(yīng)的網(wǎng)頁。讀取網(wǎng)頁的工作常常是根據(jù)用戶的需求建立目標(biāo)樣本，然后利用搜索引擎選擇待采集的站點(diǎn)，最后交由后臺(tái)的網(wǎng)站下載工具(離線瀏覽器)來完成。本發(fā)明采用互聯(lián)網(wǎng)上廣泛應(yīng)用的離線瀏覽器——WebRe即er。通過離線瀏覽器下載下來的Web頁面被分別存儲(chǔ)在指定的目錄下供預(yù)處理模塊分詞、提取特征信息。學(xué)習(xí)模塊首先由用戶提供用戶不感興趣的網(wǎng)頁信息，并通過學(xué)習(xí)模塊來進(jìn)行初始化用戶模板(Profile)，然后由網(wǎng)絡(luò)信息免疫系統(tǒng)不斷地從用戶那里直接或間接地獲得反饋信息，并對(duì)用戶模板(Profile)進(jìn)行修正。傳統(tǒng)的方法中，一是利用概率模型進(jìn)行Profile中Term的權(quán)值調(diào)整；二是利用向量空間法修正Profile方向。修改后的用戶模板可以對(duì)生成免疫規(guī)則模塊進(jìn)行規(guī)則更新。預(yù)處理模塊預(yù)處理模塊的功能是負(fù)責(zé)把信息采集模塊所讀取的網(wǎng)頁，先進(jìn)行分詞處理，然后進(jìn)行特征提取，最后網(wǎng)頁特征化表示并存入用戶知識(shí)庫。免疫規(guī)則生成模塊通過學(xué)習(xí)模塊對(duì)用戶不感興趣的網(wǎng)頁信息的學(xué)習(xí)，生成了免疫規(guī)則模塊。免疫規(guī)則模塊可以生成初始的免疫規(guī)則，隨后隨著用戶反饋對(duì)學(xué)習(xí)模塊的作用，生成免疫規(guī)則模塊可以對(duì)規(guī)則進(jìn)行更新。免疫應(yīng)答模塊免疫應(yīng)答模塊是在生成免疫規(guī)則模塊所生成的規(guī)則控制下對(duì)經(jīng)過預(yù)處理的網(wǎng)頁信息進(jìn)行特異識(shí)別。對(duì)親和力高的"非自體"網(wǎng)頁抗原我們調(diào)用免疫規(guī)則進(jìn)行清除，并保存記憶細(xì)胞存入基因庫中。另外本發(fā)明對(duì)免疫規(guī)則的變異和克隆也是在免疫應(yīng)答模塊的指導(dǎo)下進(jìn)行的。免疫系統(tǒng)運(yùn)作流程用戶首先通過信息采集器收集訓(xùn)練抗原，經(jīng)過預(yù)處理后通過特征提取可以生成B細(xì)胞集組成初始基因庫。用戶搜索到的網(wǎng)頁經(jīng)過分詞處理后可以初步表示為抗原網(wǎng)頁，并通過對(duì)不感興趣網(wǎng)頁進(jìn)行學(xué)習(xí)可以制定免疫規(guī)則，在免疫規(guī)則的指導(dǎo)下，免疫應(yīng)答模塊對(duì)經(jīng)過預(yù)處理的網(wǎng)頁抗原進(jìn)行特異識(shí)別。根據(jù)本發(fā)明的計(jì)算親和力算法計(jì)算網(wǎng)頁抗原與B細(xì)胞抗體的親和力從而識(shí)別出"非自體"的抗原。對(duì)親和力高的"非自體"網(wǎng)頁抗原調(diào)用免疫規(guī)則進(jìn)行清除，并將記憶細(xì)胞保存到基因庫中。在下次遇到同類網(wǎng)頁抗原時(shí)，可以直接調(diào)用記憶細(xì)胞中記錄的免疫規(guī)則對(duì)網(wǎng)頁進(jìn)行清除，從而減少應(yīng)答時(shí)間。對(duì)網(wǎng)頁抗原具有高親和力的抗體可以產(chǎn)生免疫活化和克隆變異，對(duì)免疫規(guī)則進(jìn)行反饋。實(shí)施例2預(yù)處理預(yù)處理步驟可以分為以下幾步(1)通過信息抽取算法從多記錄結(jié)構(gòu)的Web頁面中抽取各信息記錄。主要是分析網(wǎng)頁標(biāo)記，提取正文內(nèi)容。(2)對(duì)文本內(nèi)容進(jìn)行分詞處理。這里主要通過選用中科院計(jì)算所耗時(shí)一年研制的漢語詞法分析系統(tǒng)ICTCLAS來實(shí)現(xiàn)分詞處理。(3)構(gòu)造"詞——文本"矩陣。每一文本d都被映像為由一組規(guī)范化正交詞條向量所構(gòu)成的向量空間中的一個(gè)點(diǎn)，將文本看作相互獨(dú)立的詞條組(1=(tpt2，...t》，對(duì)于每一詞條ti都根據(jù)其在文本中的重要程度賦以一定的權(quán)值W工。W工這里被定義為ti在文檔中的出現(xiàn)頻率tfi(d)的函數(shù)，即Wi(d)二IF(tfi(d))。然后對(duì)所有的特征詞按照其權(quán)值大小進(jìn)行排序，選取前預(yù)定數(shù)目個(gè)最佳特征詞形成特征子集。最后按照每一個(gè)不同的詞對(duì)應(yīng)于矩陣?yán)锏囊恍校恳粋€(gè)文本則對(duì)應(yīng)于矩陣的一列的方法構(gòu)造詞——文本矩陣。(4)在"詞——文本"矩陣建立之后，利用奇異值分解(SingularValueDecomposition:SVD)計(jì)算該矩陣的k_秩近似陣。一方面，消減了原詞——文本矩陣中包含的"噪聲"因素，從而更加凸顯出詞和文本之間的語義關(guān)系另一方面，使得詞、文本向量空間大大縮減，因而可以提高免疫系統(tǒng)的效率。(5)文本信息表示。經(jīng)過奇異值分解后得到詞條組d=(tpt2，...tn)，如果將t2....tn看成一個(gè)N維坐標(biāo)中的坐標(biāo)軸，WnW2....Wn就是對(duì)應(yīng)的坐標(biāo)值。這樣由(tpt2，...tn)分解而成的正交詞條矢量就構(gòu)成了一個(gè)文本向量空間，文本則映射為空間中的一個(gè)點(diǎn)。對(duì)于所有文本，都可用此空間中的詞條矢量(、W"t2，W2，...tn，Wn)表示，從而將文本信息的匹配問題轉(zhuǎn)化為向量空間中矢量匹配問題處理。實(shí)施例3算法設(shè)計(jì)和信息反饋基于關(guān)鍵詞匹配的過濾方法建立在關(guān)鍵詞的基礎(chǔ)上，通過加權(quán)、相關(guān)性判斷等控制手段來體現(xiàn)概念因素。它將文本內(nèi)容轉(zhuǎn)換成向量方式，易于數(shù)學(xué)處理，可操作性強(qiáng)，執(zhí)行速度快，易于理解。但這種方法受關(guān)鍵詞選取準(zhǔn)確度的限制，并且，它是基于詞間關(guān)系相互獨(dú)立的基本假設(shè)(正交假設(shè))，這在實(shí)際環(huán)境中是很難滿足的。采用潛在語義索引法過濾，過濾精度要高于按關(guān)鍵詞匹配方法進(jìn)行的過濾，可獲得更好的過濾效果。但這種方法采用潛在的語義結(jié)構(gòu)，缺乏直觀意義，不便理解，而且潛在語義索引法算法比較復(fù)雜，過濾操作執(zhí)行速度慢，隨著大量新詞語的加入，會(huì)使概念空間上的查詢、過濾性能下降，因而它要求初始的訓(xùn)練集足夠大，也可當(dāng)新詞語太多時(shí)重新進(jìn)行SVD計(jì)算。信息免疫算法依照人們的長期實(shí)踐經(jīng)驗(yàn)，模仿了免疫細(xì)胞對(duì)抗原進(jìn)行免疫的原理，并結(jié)合各種數(shù)學(xué)算法來實(shí)現(xiàn)它的功能。它的最大優(yōu)點(diǎn)是具有很強(qiáng)的自學(xué)習(xí)功能和自適應(yīng)能力，并有一定的容錯(cuò)性和柔韌性，使之在減少人為干預(yù)的情況下，實(shí)現(xiàn)系統(tǒng)的自我更新和完善。信息免疫算法把每個(gè)文檔表示為一個(gè)三維向量，分為網(wǎng)址、標(biāo)題和關(guān)鍵字三部分Vector=〈url，title,key>其中Url=〈wordl，word2，…，wordn〉Title=〈wordl，word2，…，wordn〉Key=〈wordl，word2，…，wordm〉有關(guān)正文文本特征向量表示的數(shù)據(jù)結(jié)構(gòu)如下typedefstructt_term_weight{charterm[MAX_TERM_LEN]:〃特征項(xiàng)floatweight;〃特征項(xiàng)的權(quán)值TF*1DF}t_term_weight;typedefstructt_doc_vsm{t_doc」dcont」d;〃文本在訓(xùn)練集中的唯一標(biāo)識(shí)intterm_num;〃文本向量中所含特征項(xiàng)的數(shù)目t_term_weghtvsm_arr[MAX_VSM_LEN];〃文本的向量數(shù)組}t_doc_vsm;信息免疫算法如下Programmain//主禾呈序{Train(trainingset)〃訓(xùn)練規(guī)則，生成幾類抗體，對(duì)應(yīng)一類抗體就有一系列行為就是一個(gè)規(guī)則Waituntil(atextarrives)Ag〈-converttextintoantigen〃通過分詞，轉(zhuǎn)化為4.3.1中的抗原向量表示K〈-affinity(ag，mc)〃與記憶細(xì)胞進(jìn)行匹配，相符則移除該抗原網(wǎng)頁IFK=1Agwillberemovedelse11K〈-affinity(ag，be)R=(Con，Par)〃生成二進(jìn)制抗體，見4.3.2C(ag)=(Z畫'*"/(戸W-1),戸2,.)("g))〃抗體的親和力，詳見4.3.2，coni的取值由K決定If(C(ag)>=Ka)MoveagintouseraccessiblestorageStorage〃存入用戶不感興趣緩沖數(shù)據(jù)庫ElseAllowtexttopassthrough〃網(wǎng)頁文本直接提交用戶；抗體規(guī)則越多，這里的操作也會(huì)分的越細(xì)，這里假設(shè)只有兩個(gè)操作If(userhasgivenfeedbackonag)Update(ag)〃提升與該抗原親和力大于閥值的抗體規(guī)則(規(guī)則clone提升)}在免疫算法中本發(fā)明用到了計(jì)算親和力算法，計(jì)算親和力算法本發(fā)明設(shè)計(jì)如下先計(jì)算網(wǎng)址、標(biāo)題的親和力，即url，title向量，如果親和力大于ka，直接返回；反之進(jìn)一步計(jì)算關(guān)鍵字的親和力；該算法之前把文檔經(jīng)過預(yù)處理，用概念類代表同義詞和近義詞。procedureaffinity(ag，be)〃計(jì)算親禾口力(If(aghasashorterurlfeaturevectorthanbe)Bshort〈_ag.url，Blong〈_bc.urlElseBshort〈_bc.url，Blong〈_ag.urlCo皿t〈—thenumberofwordsinbshortpresentinblongBs_len〈_thelengthofbshort'sfeaturevectorAf〈_coimt/bs_lenIf(Af>=Ka)ReturnAfElseIf(aghasashortertitlefeaturevectorthanbe)Bshort〈_ag.title,Blong〈_bc.titleElseBshort〈_bc.title,Blong〈_ag.titleCo皿t〈—thenumberofwordsinbshortpresentinblongBs_len〈_thelengthofbshort'sfeaturevectorAf〈_coimt/bs_len12If(Af>=Ka)ReturnAfElse〃前面為計(jì)算網(wǎng)址、標(biāo)題的親和力，即url，title向量；后面計(jì)算關(guān)鍵字的親和力如果ag和be含有相同的關(guān)鍵字則按其權(quán)重進(jìn)行比較endifIf(aghasthesamekeyfeaturevectorinbe)J/=J力(Bo-Agim)2〃這里Agim(Be,)表示關(guān)鍵詞tm在文檔Agi(BCj)中的權(quán)重，0《Agim《1ReturnAf}在信息免疫算法中，本發(fā)明在一開始就用到了Train子程序，Train(trainingset)是一個(gè)訓(xùn)練算法，該算法對(duì)樣本免疫庫中的抗原進(jìn)行訓(xùn)練，生成B細(xì)胞集；抗原已進(jìn)行過分詞處理，在算法中表現(xiàn)為一類訓(xùn)練集合，在這里叫做TE。算法如下ProcedureTrain(trainingset){Foreach(teGTE)AddtitlewordsandkeywordstoappropriatelibraryRemoveKtrandomelementsfromTEandinsertintoMCForeach(mcGMC)If(affinity(mc，te)>Ka)Clones—clone—mutate(mc，te)〃克隆變異生成新抗體Foreach(cloGclones)If(affinity(clo，te)>=affinity(mc，te))BC—BCU{clo}Negachoose(BC)〃否定選擇算法}否定選擇算法否定免疫算法是對(duì)免疫細(xì)胞的成熟過程的模擬，經(jīng)歷耐受的檢測(cè)器模擬成熟的免疫細(xì)胞。ProcedureNegachoose(BC){從BC中隨機(jī)生成大量的侯選檢測(cè)器bc(即免疫細(xì)胞)；〃初始化while—個(gè)給定大小的檢測(cè)器集合還沒有被產(chǎn)生do〃耐受Foreach(self)If(affinity(self，bc)>e)〃選擇ThenRemovebefromBC}13克隆變異算法用戶的興趣是會(huì)發(fā)生變化的，有時(shí)用戶對(duì)自己的信息需求模糊不清，或很難選擇準(zhǔn)確的關(guān)鍵詞，以致提交的信息需求不一定準(zhǔn)確，本發(fā)明提供了克隆變異的算法來結(jié)合多個(gè)用戶的信息需求，進(jìn)行交叉變異可以生成新的抗體。Procedureclone—mutate(bcl，bc2){aff—affinity(bcl，bc2)clones—①〃親和力越大克隆的數(shù)目就越多，相應(yīng)變異的就越少；反之則克隆的少變異的多；皿m—clones—aff氺kl皿m—mutate—(1-aff)氺bc，sfeaturevectorlength氺kmFor(I=1;1<=皿m—clones;I++)bcx—acopyofbclFor(j=1;j<=皿m—mutate;j++)〃對(duì)克隆中的隨機(jī)關(guān)鍵詞進(jìn)行替換；p—arandompointinbcx，sfeaturevectorw—arandomwordfromtheappropriategenelibraryreplacewordinbcx，sfeaturevectoratlocationpwithwclones—clonesU{bcx}returnclones}針對(duì)用戶的反饋，要對(duì)規(guī)則進(jìn)行提升，規(guī)則的提升算法系統(tǒng)內(nèi)的規(guī)則克隆變異和系統(tǒng)外的用戶反饋共同決定規(guī)則的變化。ProcedureUpdate(ag){Foreach(bcGBC)If(affinity(ag，be)>Ka)Incrementbe'sstimulationcount〃找出與該抗原親和力最高的抗體，如果該抗體與抗原的親和力高于記憶細(xì)胞與抗原的親和力，則在提升規(guī)則的同時(shí)更新記憶細(xì)胞Bc_best—elementofBCwithhighestaffinitytoag〃系統(tǒng)內(nèi)B細(xì)胞克隆變異BC—BCUclone—mutate(bc_best，ag)Bc_best—elementofBCwithhighestaffinitytoagMc_best—elementofMCwithhighestaffinitytoagIf(affinity(bc_best，ag)>affinity(mc_best，ag))BC—BCU{bc_best}MC—MCU{mc_best}U{bc_best}Foreach(mcGMC)If(affinity(bc_best，mc)>Ka)Decrementmcstimulationcountandaddwordsfromag'sfeaturevectortogenelibraries}通常情況下，通過用戶填寫表單的方式束獲取其信息需求其方法最簡單、經(jīng)濟(jì)，也是現(xiàn)在網(wǎng)絡(luò)信息服務(wù)提供商最常用的一種方式。這種方法的缺點(diǎn)是有時(shí)用戶對(duì)自己的信息需求模糊不清，或很難選擇準(zhǔn)確的關(guān)鍵詞。另外，由于是用戶主動(dòng)填寫需求單，而系統(tǒng)不能主動(dòng)跟蹤用戶的興趣變化，其服務(wù)仍然是被動(dòng)式的。為了解決這些問題，主要有如下方法采用固定文章集了解用戶需求的信息過濾方法；基于示例的用戶信息需求獲取方法；主動(dòng)跟蹤用戶的信息需求；借鑒面向?qū)ο蟪绦蛟O(shè)計(jì)中類樹及生物免疫的思想，先由系統(tǒng)管理員定義類的框架。在本系統(tǒng)中采用的借鑒面向?qū)ο蟪绦蛟O(shè)計(jì)中類樹及生物免疫的思想，用戶可以通過一個(gè)可視化的界面來完成對(duì)自己信息需求內(nèi)容的定義描述。接著系統(tǒng)把用戶的需求描述內(nèi)容轉(zhuǎn)化成為一種內(nèi)部信息需求描述格式，同時(shí)發(fā)給免疫系統(tǒng)完成用戶所需信息的查詢。由于有時(shí)用戶對(duì)自己的信息需求模糊不清，或很難選擇準(zhǔn)確的關(guān)鍵詞，所以提交的信息需求不一定準(zhǔn)確。隨著多個(gè)用戶信息需求的提交，系統(tǒng)對(duì)多個(gè)需求的交叉變異會(huì)生成新的需求。當(dāng)需求與外來信息進(jìn)行匹配后，免疫系統(tǒng)會(huì)對(duì)正確的需求進(jìn)行克隆擴(kuò)增，從而獲取一個(gè)較高質(zhì)量的信息需求文件(Profile)。需求描述格式定義如下UserProfile=0bjectDescrptionl，...，0bjectDescrptionn〃需求整體定義說明，即該需求描述是由若干數(shù)據(jù)對(duì)象的定義描述構(gòu)成ObjectDescriptionj=(ObjiectFieldDefinationj，0bjectDataFilterCondictionj)〃對(duì)各個(gè)數(shù)據(jù)對(duì)象的定義描述細(xì)化，包括數(shù)據(jù)對(duì)象(數(shù)據(jù)表)、數(shù)據(jù)對(duì)象的屬性(所需列)、數(shù)據(jù)對(duì)象包含的數(shù)據(jù)(所需行)的描述說明ObjectFieldDefination=0bjectNamej(fieldjl，...fieldjk)〃具體說明所要求的各數(shù)據(jù)對(duì)象(數(shù)據(jù)表)及其所需的各屬性(字段)0bjectDataFilterCondition=BoolenExpression(fieldjl，…，fieldjk)〃數(shù)據(jù)表中數(shù)據(jù)記錄(行)的過濾條件網(wǎng)絡(luò)中的用戶信息需求是處于動(dòng)態(tài)變化之中，并且潛在需求會(huì)隨著文檔的提供逐漸明確。這就需要網(wǎng)絡(luò)信息過濾系統(tǒng)不斷地從用戶那里直接或間接地獲得反饋信息，并對(duì)用戶模板(Profile)進(jìn)行修改。傳統(tǒng)的方法中，一是利用概率模型進(jìn)行Profle中Term的權(quán)值調(diào)整；二是利用向量空間法修正Profile方向。當(dāng)前，隨著人工智能技術(shù)的發(fā)展，機(jī)器學(xué)習(xí)的方法在信息過濾中得到廣泛的應(yīng)用。如Bayes學(xué)習(xí)方法，以及神經(jīng)網(wǎng)絡(luò)方法、決策樹、KNN(KNearestNeighbor)，SVM(SupportVectorMachine)方法等，都能提供信息相關(guān)反饋，動(dòng)態(tài)了解用戶的興趣并能跟蹤其興趣的變化，并具有自我學(xué)習(xí)和自我適應(yīng)的機(jī)制。因而，這些技術(shù)在信息過濾理論與實(shí)施中受到廣泛的關(guān)注。在生物免疫系統(tǒng)中也存在反饋的原理。在免疫反饋過程中，T細(xì)胞又細(xì)分為抑制T細(xì)胞(TS)和輔助T細(xì)胞(TH)[8]，用于抑制和幫助B細(xì)胞對(duì)某種剌激的反應(yīng)。當(dāng)抗原被抗原提呈細(xì)胞消化后，抗原提呈細(xì)胞將關(guān)于抗原的信息傳遞給輔助T細(xì)胞，分泌IL+(—種白細(xì)胞介素)激活免疫反應(yīng)，IL+能剌激B細(xì)胞大量克隆增殖，促進(jìn)反應(yīng)激烈。這個(gè)階段稱為反饋期。當(dāng)B細(xì)胞的數(shù)目大到一定程度時(shí)，抑制性T細(xì)胞就會(huì)分泌大量IL-(也是一種白細(xì)胞介素，對(duì)B細(xì)胞的克隆增殖具有抑制作用)，進(jìn)而抑制免疫反應(yīng)，使之趨于平靜，這個(gè)階段稱為抑制期。免疫反饋的這些機(jī)理，能促進(jìn)免疫系統(tǒng)對(duì)抗原的快速應(yīng)答，并同時(shí)保持免疫系統(tǒng)的相對(duì)穩(wěn)定性。免疫反饋的原理可以幫我們完善信息反饋技術(shù)。進(jìn)化式信息需求定義文件(E-Profile)中每個(gè)E-Profile包含多個(gè)信息需求的描述(B-Profile)。它們從不同角度反映用戶的信息需求，用戶可對(duì)過濾后的文檔集中按照與其信息需求的相關(guān)程度按5個(gè)級(jí)別打分，最低為0，最高為1。系統(tǒng)通過用戶的打分來獲得反饋信息；通過隱式學(xué)習(xí)策略、獎(jiǎng)懲策略、淘汰策略等使每個(gè)B-Profile在每次反饋后都向用戶的實(shí)際信息需求作一次小小的移動(dòng)，由此對(duì)它們的信任度不斷更新。當(dāng)用戶提供的反饋次數(shù)達(dá)到一定值后，信任度低的B-Profile即被淘汰，信任度高的可進(jìn)行克隆變異。這樣，通過多個(gè)個(gè)體的競爭和合作，經(jīng)過類似于生物界中自然選擇的過程，使系統(tǒng)性能達(dá)到最優(yōu)。系統(tǒng)的反饋主要是通過協(xié)同剌激來實(shí)現(xiàn)，主要來自人為的協(xié)同剌激。對(duì)于一個(gè)模型是否準(zhǔn)確地預(yù)測(cè)了數(shù)據(jù)或挖掘了信息，是需要一定的反饋和評(píng)估函數(shù)的，有了反饋數(shù)據(jù)可以對(duì)模型的參數(shù)進(jìn)行動(dòng)態(tài)的調(diào)整，使得模型能夠既不過度擬合數(shù)據(jù)，又不模糊處理數(shù)據(jù)。對(duì)于信息免疫系統(tǒng)的反饋數(shù)據(jù)主要是通過對(duì)系統(tǒng)數(shù)據(jù)的監(jiān)測(cè)和人為的反饋。總的來說，系統(tǒng)數(shù)據(jù)的監(jiān)測(cè)主要是對(duì)系統(tǒng)中一些有用參數(shù)的監(jiān)測(cè)來調(diào)整系統(tǒng)，使之處在一個(gè)平衡而高效的狀態(tài)。比如，當(dāng)在一個(gè)限定的時(shí)間段中一些類似或者同一個(gè)查詢頻繁發(fā)生，而到達(dá)了一定的濃度時(shí)，系統(tǒng)就應(yīng)該使得響應(yīng)的B細(xì)胞進(jìn)行變異、遺傳和克隆，來應(yīng)付這些查詢，使得對(duì)于這些查詢的響應(yīng)更高效，而一旦這些查詢不再頻繁了，系統(tǒng)就會(huì)通知TH細(xì)胞來對(duì)這些活躍B細(xì)胞進(jìn)行抑制，減少這些B細(xì)胞的數(shù)量，同時(shí)使一些到期的B細(xì)胞進(jìn)行代謝和死亡，使另一些激活率高的B細(xì)胞加入免疫記憶細(xì)胞行列。同時(shí)，新生成優(yōu)秀的新代B細(xì)胞，以保持系統(tǒng)中B細(xì)胞的一定濃度。而人為的協(xié)同剌激主要是用來對(duì)系統(tǒng)數(shù)據(jù)分類的一種判斷，或是對(duì)于查詢的進(jìn)一步精確化。系統(tǒng)在自動(dòng)分類過程中就需要人為的協(xié)同剌激來進(jìn)行確認(rèn)和對(duì)系統(tǒng)進(jìn)行調(diào)整。用戶可以通過一個(gè)可視化的界面來對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行反饋。實(shí)施例4發(fā)明人在Windows2000Server環(huán)境下實(shí)現(xiàn)該系統(tǒng)，采用VB.net作為主要編程工具，通過IIS發(fā)布ASP網(wǎng)頁文件，DBMS采用SQLServer2000，用于保存詞典、文檔索引庫、類別詞及基因庫等信息。由于系統(tǒng)需要使用搜索引擎，為了提高系統(tǒng)的查全率和查準(zhǔn)率，在實(shí)際應(yīng)用中應(yīng)該采用元搜索引擎進(jìn)行搜索，不過由于時(shí)間和精力的原因，發(fā)明人在實(shí)驗(yàn)中采用自己架設(shè)網(wǎng)站借用百度搜索引擎進(jìn)行測(cè)試。測(cè)試文檔取自中國新聞社網(wǎng)站。該網(wǎng)站每天產(chǎn)生200字以上的各類新聞180條左右，取IOOO條新聞作為學(xué)習(xí)樣本，再取其后IOOO條作為測(cè)試數(shù)據(jù)。網(wǎng)頁由軟件自動(dòng)獲取，并抽取其中的新聞主體，刪除標(biāo)簽等無關(guān)數(shù)據(jù)后進(jìn)行分詞處理，再進(jìn)行特征選擇，構(gòu)造基因16庫。在學(xué)習(xí)階段，由用戶提供比較反感的網(wǎng)頁，系統(tǒng)自動(dòng)下載該網(wǎng)頁，抽取其中的文本，分詞后消除停用詞，進(jìn)行特征選擇。經(jīng)過特征選擇后，去除文檔中高達(dá)98%的無效詞條。這里實(shí)驗(yàn)采用改進(jìn)的基于詞頻統(tǒng)計(jì)的方法計(jì)算詞條的權(quán)重，計(jì)算式為<formula>formulaseeoriginaldocumentpage17</formula>(6-1)式中Wt,d為詞條t在文檔d中的權(quán)重；lt是詞條t的字?jǐn)?shù)；ft,d是詞條t在文檔d中出現(xiàn)的次數(shù)；ld是文檔d的字?jǐn)?shù)。通過對(duì)中國新聞社大量網(wǎng)頁的統(tǒng)計(jì)表明，該方法比TF-IDF方法更簡潔、高效?；谛畔⒚庖咚惴軜?gòu)的搜索引擎主要分為三層架構(gòu)，實(shí)現(xiàn)框架見圖3所示。關(guān)于親和力閾值的確定，本系統(tǒng)先在系統(tǒng)初始狀態(tài)給定一個(gè)初始閾值零，在經(jīng)過對(duì)正例(用戶感興趣的網(wǎng)頁信息)、反例(用戶不感興趣的網(wǎng)頁信息)與初始用戶不感興趣信息的親和力計(jì)算后，用正例親和力的均值和反例親和力的均值的中點(diǎn)作為新的閾值。可以按照下面的公式計(jì)算反饋閾值<formula>formulaseeoriginaldocumentpage17</formula>其中SimPi、Simrij分別為第i個(gè)正例，第j個(gè)反例與基因庫中用戶不感興趣的信息的親和力；m、n分別為正例和反例的數(shù)量。在一系列無閾值反饋和有閾值反饋的對(duì)比實(shí)驗(yàn)中，有閾值反饋的正確率和召回率都要優(yōu)于無閾值反饋的結(jié)果。見下表。<table>tableseeoriginaldocumentpage17</column></row><table>從上表可以看出，進(jìn)化方法所提取的規(guī)則數(shù)較多，但準(zhǔn)確率相對(duì)較低；信息免疫算法所提取的規(guī)則數(shù)較少，但準(zhǔn)確率較高。這在一定程度上說明，信息免疫算法相對(duì)于進(jìn)化方法而言較適于求解一些精練的規(guī)則。在進(jìn)化算法和信息免疫算法的對(duì)比方面，二者在求解結(jié)果方面的差異不少，后者的計(jì)算速度較快。這主要是因?yàn)樾畔⒚庖咚惴梢詼p弱進(jìn)化算法在計(jì)算過程中出現(xiàn)的退化現(xiàn)象，有利于群體的相對(duì)穩(wěn)定，從而促進(jìn)演化過程。信息免疫算法比進(jìn)化算法所搜索到的網(wǎng)頁數(shù)量要少很多，會(huì)不會(huì)造成查全率較低呢？答案是否定的，因?yàn)槲覀兊乃阉魇腔谙嗤乃阉饕?，只不過信息免疫算法有個(gè)基于記憶細(xì)胞的規(guī)則可以很大的降低搜索到的網(wǎng)頁數(shù)量。我們的記憶細(xì)胞里記憶的是用戶感興趣的網(wǎng)頁的基本信息，包括網(wǎng)頁的網(wǎng)址，系統(tǒng)對(duì)該網(wǎng)址的首頁進(jìn)行免疫過濾，這主要是考慮，首頁主要存在的是該目的網(wǎng)頁的簡介或?qū)Ш叫畔?，不具有?shí)用價(jià)值，系統(tǒng)可以予以過濾。實(shí)驗(yàn)過程中由于要過濾的文本比較多，而在預(yù)處理過程中對(duì)關(guān)鍵詞的權(quán)值是按詞頻統(tǒng)計(jì)的，如何快速統(tǒng)計(jì)特征詞在文檔中的出現(xiàn)次數(shù)，成為影響系統(tǒng)過濾器效率的一個(gè)重要因素。為了加快統(tǒng)計(jì)速度，本發(fā)明以每個(gè)特征詞的首字為索引，將特征詞散列在6763個(gè)漢字組成的散列表中，對(duì)于首字相同的特征詞，本發(fā)明用鏈表將它們組織起來。如圖4所示。在圖4中特征詞節(jié)點(diǎn)可以記錄該詞在文檔中出現(xiàn)的次數(shù)，這樣極大地提高了統(tǒng)計(jì)速度。圖5是程序運(yùn)行的部分界面。同樣的搜索關(guān)鍵詞"計(jì)算機(jī)免疫"在百度的搜索結(jié)果見圖6。通過比較我們可以看出對(duì)相同關(guān)鍵詞的檢索本發(fā)明的免疫搜索獲得了比百度搜索要少的多的記錄，運(yùn)行時(shí)間也和百度檢索相當(dāng)。下面是程序中的部分代碼。/*------------創(chuàng)建用于保存全站索引的數(shù)據(jù)表-----------*/CREATETABLE—detail—(—ID—INTNOTNULLAUTO_INCREMENTPRIMARYKEY,—title—VARCHAR(100)NOTNULL,—keyword—TEXTNOTNULL,—filename—VARCHAR(250)NOTNULL,—dtime—DATETMENOTNULL—url—varchar(100)NOTNULL,);〃下面是從收集到的網(wǎng)頁詳細(xì)信息表detail中刪除滿足規(guī)定條件的網(wǎng)站記錄；〈％by=request(〃by")word=request(〃word")pn=request(〃pn〃)ifby=〃url"thensql=〃select*fromdetailwhereurllike'%〃&word&〃％'〃6ls6sql=,endif%>〈％deleteifdelete〈〉"co皿.executeresponse,writeselect*fromdetailwheretitlelike'%〃&word&〃％'delete")andsession(〃lastdeleted"deletefromdetailwhereidthen〈bigXbigXfontcolor為"&delete&〃的網(wǎng)站記錄！〈/font>〈/big>〈/bigsession(〃lastdeleted")=deleteendif%>=〃&deletered'>已刪除一條編號(hào)圖7是用戶反饋的系統(tǒng)界面。用戶反饋的信息會(huì)直接被插入過濾表單中，并且被用戶反饋的關(guān)鍵詞和標(biāo)題信息都會(huì)引起相關(guān)免疫規(guī)則的更新。過濾表單的生成#創(chuàng)建時(shí)間2005年9月13日17:58#最后更新時(shí)間2005年9月13日17:58#DROPTABLEIFEXISTS—banlist—;CREATETABLE—banlist—(—icTint(ll)墜ignedNOTNULLauto_increment，—bankey—varchar(lOO)NOTNULL,—reason—varchar(100)NOT亂L，—title—varchar(100)NOTNULL,—url—varchar(100)NOTNULL,PRIMARYKEY(—icf))TYPE=MyISAMAUTO_INCREMENT=9;##導(dǎo)出表中的數(shù)據(jù)—banlist—#INSERTINTO—banlist—(—idcom'，'黃色網(wǎng)站')；INSERTINTO—banlist—Cidnet'，'黃色網(wǎng)站')；INSERTINTO—banlist—Cicfcom'，'黃色網(wǎng)站')；INSERTINTO—banlist—Cicf測(cè)試')；INSERTINTO—banlist—Cicf危險(xiǎn)網(wǎng)站')；INSERTINTO—banlist—Cicf危險(xiǎn)網(wǎng)站')；INSERTINTO—banlist—icf，—bankey—，—reason—)VALUES(7，'ad.fr.doubleclick.net'，'危險(xiǎn)網(wǎng)站')；INSERTINTO—banlist—(—icf，—bankey—，—reason—)VALUES(8，'ad08.focalink.com'，'危險(xiǎn)網(wǎng)站')；這里是初始化的過濾表單的生成，用戶反饋可以對(duì)該表單進(jìn)行更新。本實(shí)驗(yàn)主要通過把預(yù)先訓(xùn)練好的用戶不感興趣的網(wǎng)頁特征集建成數(shù)據(jù)庫，然后與搜索到的網(wǎng)頁特征集進(jìn)行比較，主要是進(jìn)行網(wǎng)址、標(biāo)題和關(guān)鍵字的親和力計(jì)算。實(shí)驗(yàn)中只對(duì)親和力等于1的網(wǎng)頁進(jìn)行過濾。發(fā)明人在實(shí)驗(yàn)中也針對(duì)當(dāng)前流行的過濾規(guī)則建立過濾數(shù)據(jù)庫表單，對(duì)網(wǎng)頁進(jìn)行雙重過濾，成功的提高了搜索效率。bankey，reason)VALUES(1，'www.xxxx.'bankey'，'reason')VALUES(2，'aisa-girl.bankey，reason)VALUES(3，'www.mmgirls.bankey^，reason)VALUES(4，'sss.com'，'bankey^，reason)VALUES(5，'qq520.com'，'bankey^，^reasorT)VALUES(6，'sexhu.com'，'19用戶反饋系統(tǒng)采用了系統(tǒng)在過濾中通過對(duì)親和力等于1的規(guī)則進(jìn)行克隆更新和用戶通過系統(tǒng)界面進(jìn)行反饋兩種方法進(jìn)行反饋的方式，即使不通過用戶反饋系統(tǒng)也可以進(jìn)行進(jìn)化，減輕了用戶的工作。權(quán)利要求一種免疫系統(tǒng)在搜索引擎中的應(yīng)用。2.如權(quán)利要求1所述的免疫系統(tǒng)在搜索引擎中的應(yīng)用方法，其采用如下步驟來實(shí)現(xiàn)問題定義，把信息檢索中存在的問題，用免疫系統(tǒng)的免疫思想來解決，把檢索系統(tǒng)中的概念和操作同免疫系統(tǒng)中的概念和操作對(duì)應(yīng)起來，確定免疫系統(tǒng)的變量、常量、函數(shù)和參數(shù)；信息預(yù)處理，用搜索引擎對(duì)信息進(jìn)行預(yù)處理，因其面向的對(duì)象都是半結(jié)構(gòu)化的網(wǎng)頁，對(duì)這些網(wǎng)頁信息進(jìn)行免疫處理之前，首先需要對(duì)這些網(wǎng)頁進(jìn)行預(yù)處理，主要包括特征提取、分詞和網(wǎng)頁特征化表示；設(shè)計(jì)信息免疫算法，將所描述的問題和要使用的免疫原理結(jié)合起來，設(shè)計(jì)模型、過程和算法，算法中包括親和力計(jì)算、抗原樣本訓(xùn)練、克隆變異和否定選擇；系統(tǒng)設(shè)計(jì)，對(duì)預(yù)處理后的網(wǎng)頁信息進(jìn)行訓(xùn)練，生成免疫規(guī)則，在免疫規(guī)則的指導(dǎo)下，利用信息免疫算法對(duì)搜索結(jié)果進(jìn)行免疫過濾，得到用戶感興趣的搜索結(jié)果。全文摘要本發(fā)明主要把免疫系統(tǒng)的信息處理機(jī)制引入信息檢索系統(tǒng)中，利用免疫系統(tǒng)的學(xué)習(xí)、記憶和自我識(shí)別機(jī)理來解決信息檢索中存在的搜索結(jié)果過多的問題。通過實(shí)驗(yàn)測(cè)試，取得了較好的效果。文檔編號(hào)G06N3/00GK101751409SQ20081020360公開日2010年6月23日申請(qǐng)日期2008年11月28日優(yōu)先權(quán)日2008年11月28日發(fā)明者趙孟德申請(qǐng)人:上海電機(jī)學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙孟德
技術(shù)所有人：上海電機(jī)學(xué)院
我是此專利的發(fā)明人

上一篇：具有筆跡識(shí)別身份確認(rèn)功能的個(gè)人電腦及實(shí)現(xiàn)方法
上一篇：一種模糊最短路徑的查找方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

搜索引擎應(yīng)用相關(guān)技術(shù)

搜索引擎的應(yīng)用相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

免疫系統(tǒng)在搜索引擎中的應(yīng)用的制作方法