專利名稱:用于創(chuàng)建統(tǒng)一的可打印的超鏈接文檔集的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明總地涉及創(chuàng)建文檔集的系統(tǒng)和方法,更具體地說(shuō),涉及將超鏈接文檔集作為一個(gè)合成的文檔進(jìn)行刊印(publish)。
背景技術(shù):
在萬(wàn)維網(wǎng)上的信息激增已經(jīng)使對(duì)相關(guān)信息進(jìn)行歸類的任務(wù)變得困難。超鏈接通常用在在線文檔內(nèi)以提供對(duì)相關(guān)信息的訪問(wèn)。超鏈接,或者鏈接是從一個(gè)對(duì)象(例如,文字、圖像、聲音和/或視頻)到另一個(gè)對(duì)象的連接,它能夠由用戶選擇。通常,鏈接是一被加亮的文字或圖片,當(dāng)選擇該文字或圖片時(shí)則導(dǎo)致另一個(gè)文件的即刻提供。被加亮的對(duì)象稱為鏈接點(diǎn)(anchor)。鏈接點(diǎn)引用(reference)和對(duì)應(yīng)的對(duì)象組成了基本的超鏈接。
超鏈接提供了快速的和方便的對(duì)電子文檔的訪問(wèn),但是,當(dāng)將它們傳輸?shù)狡渌橘|(zhì)時(shí),例如當(dāng)將在線文檔打印為硬拷貝(即,紙張)時(shí),它們會(huì)丟失功能。任何超鏈接的功能丟失,也就是說(shuō),超鏈接再不能引導(dǎo)用戶方便地得到已提供的相關(guān)信息。
在某些Web瀏覽器中,例如Microsoft的IE,當(dāng)打印在線文檔時(shí),提供一種打印所有鏈接的文檔的選項(xiàng)。然后瀏覽器獨(dú)立地打印每個(gè)文檔,其中僅附有包括指向因特網(wǎng)地址的快捷文字的表。
因此,存在著對(duì)收集超鏈接文檔并將其作為一體的文檔刊印的系統(tǒng)和方法的需求。而且,由于目前大多數(shù)的信息可以在網(wǎng)上以包括鏈接的網(wǎng)頁(yè)的形式獲得,從而出現(xiàn)了對(duì)從初始的一組超鏈接文檔(種子(seed))編輯出版物的方法的需求。
發(fā)明概述本發(fā)明涉及一種用于創(chuàng)建元文檔(meta-document)的方法。該方法根據(jù)種子文檔收集至少一個(gè)超鏈接文檔,并使集內(nèi)的文檔交叉引用(cross-referencing)。交叉引用包括分辨(resolve)鏈接點(diǎn)和對(duì)象,并在元文檔內(nèi)根據(jù)各自位置引用鏈接點(diǎn)和對(duì)象(referencing)。
該方法組織收集的文檔和種子文檔。該方法還刊印包括各交叉引用的文檔的元文檔。
最好,該收集方法包括接收具有指向?qū)ο蟮逆溄狱c(diǎn)的種子文檔,并將包括對(duì)象的文檔添加到集中。另外,收集包括手動(dòng)修改集的步驟。
元文檔是種子文檔和超鏈接文檔的集。進(jìn)而,引用步驟包括向鏈接點(diǎn)或/和對(duì)象提供腳注、尾注、內(nèi)容表、以及附錄中的一種。
該方法還包括將每個(gè)超鏈接(即,被加亮的文字)表示為對(duì)應(yīng)的文檔的維度,確定每個(gè)超鏈接的頻率,將超鏈接的頻率定義為對(duì)應(yīng)的超鏈接維度的坐標(biāo),以及將每個(gè)文檔群集(cluster)成一矢量。該方法還包括依照寬度優(yōu)先對(duì)集進(jìn)行排序,或者,該方法包括依照深度優(yōu)先對(duì)集進(jìn)行排序。
或者,組織(organize)可以包括將具有最大數(shù)量連接的文檔定義為第一等級(jí)的鏈接點(diǎn)。該方法可以將由鏈接點(diǎn)指向的和指向鏈接點(diǎn)的任意文檔定義為第一等級(jí)節(jié)點(diǎn),并且可以根據(jù)每個(gè)第一等級(jí)節(jié)點(diǎn)指向的節(jié)點(diǎn)的數(shù)量對(duì)第一等級(jí)的節(jié)點(diǎn)進(jìn)行排序。該方法至少可以定義包括由第一等級(jí)指向的但還未由另一個(gè)節(jié)點(diǎn)指向的文檔的第二等級(jí)。最好一旦確定所有文檔都指配有等級(jí),則該方法就可以完成組織。如果存在未指配的文檔,則一旦確定沒(méi)有文檔指配給最后定義的等級(jí),該方法就可以將具有最大數(shù)量連接的文檔定義為第一等級(jí)的鏈接點(diǎn)。該方法一旦確定文檔已指配給了最后定義的等級(jí),就定義包括由下一個(gè)更高等級(jí)指向的但還未由另一個(gè)節(jié)點(diǎn)指向的文檔的附加等級(jí)。
刊印可以包括打印、存儲(chǔ)(例如,存儲(chǔ)在可卸盤、硬盤、存儲(chǔ)器中等)、發(fā)傳真以及發(fā)電子郵件中的一種。
上述用于創(chuàng)建元文檔的方法可以采用計(jì)算機(jī)可讀程序代碼的方式實(shí)現(xiàn)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,刊印元文檔的方法可以包括在刊印者處接收用戶請(qǐng)求,根據(jù)用戶請(qǐng)求收集至少一個(gè)超鏈接文檔,利用集對(duì)文檔進(jìn)行交叉引用,以及向用戶刊印該集。用戶請(qǐng)求可以包括電子請(qǐng)求、口頭請(qǐng)求和書面請(qǐng)求中的一種。
該方法還可以包括確定所收集的文檔的版權(quán)信息,并為使用該文檔對(duì)版權(quán)所有者進(jìn)行補(bǔ)償。
下面將參照附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述圖1是依照本發(fā)明的網(wǎng)絡(luò)環(huán)境的圖;圖2是根據(jù)本發(fā)明的綜合的刊印系統(tǒng)的結(jié)構(gòu)框圖;圖3是圖2的刊印系統(tǒng)邏輯的流程圖;圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的文檔收集例程的流程圖;圖5是依照本發(fā)明的Web站點(diǎn)的示意性站點(diǎn)圖;圖6是根據(jù)本發(fā)明的組織例程的流程圖;圖7是根據(jù)本發(fā)明的文檔排序例程的流程圖;圖8是根據(jù)本發(fā)明的綜合例程的流程圖;和圖9是根據(jù)本發(fā)明的分層結(jié)構(gòu)例程的流程圖。
具體實(shí)施例方式
所提供的根據(jù)本發(fā)明的系統(tǒng)和方法用于收集超鏈接文檔,將這些文檔綜合為一個(gè)合成的單元或元文檔,以及向元文檔內(nèi)的對(duì)應(yīng)的超鏈接(即,鏈接點(diǎn)和對(duì)象)提供交叉引用。
應(yīng)理解本發(fā)明可以采用硬件、軟件、固件、專用處理器或其組合形式的各種形式實(shí)現(xiàn)。在一個(gè)實(shí)施例中,本發(fā)明可以作為在程序存儲(chǔ)設(shè)備上明確包含的應(yīng)用程序以軟件的形式實(shí)現(xiàn)。應(yīng)用程序可以上載至包括任何適合的結(jié)構(gòu)的機(jī)器,并由該機(jī)器執(zhí)行。最好,該機(jī)器在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn),此平臺(tái)具有諸如一個(gè)或更多中央處理單元(CPU)、隨機(jī)存儲(chǔ)器(RAM)以及輸入/輸出(I/O)接口之類的硬件。計(jì)算機(jī)平臺(tái)還包括操作系統(tǒng)和微指令代碼。在此描述的各種處理和功能可以是微指令代碼的一部分,也可以是應(yīng)用程序的一部分(或者其結(jié)合形式),這些指令代碼和應(yīng)用程序都是通過(guò)操作系統(tǒng)執(zhí)行的。另外,各種其它外圍設(shè)備,如附加的數(shù)據(jù)存儲(chǔ)設(shè)備和打印設(shè)備,可以連接到該計(jì)算機(jī)平臺(tái)。
還應(yīng)理解,因?yàn)樵诟綀D中敘述的某些系統(tǒng)組成部件和方法步驟可以以軟件的形式實(shí)現(xiàn),所以系統(tǒng)部件(或處理步驟)之間的實(shí)際連接可能根據(jù)本發(fā)明編程的方式而不同。根據(jù)對(duì)在此提供的本發(fā)明的原理,在相關(guān)技術(shù)領(lǐng)域內(nèi)的一個(gè)普通技術(shù)人員將能夠理解本發(fā)明的這些和類似的實(shí)現(xiàn)方式或配置。
在本發(fā)明的一個(gè)實(shí)施例中,至少?gòu)囊粋€(gè)初始文檔中收集和匯編超鏈接文檔。這個(gè)初始文檔稱為種子。種子文檔用作生成更大文檔的基礎(chǔ)。具體地說(shuō),元文檔的組織或結(jié)構(gòu)源于種子文檔被創(chuàng)建。組織通過(guò)分辨元文檔內(nèi)的交叉引用的超鏈接來(lái)提供。
參照?qǐng)D1,在根據(jù)本發(fā)明的系統(tǒng)中,客戶站115、125和135連接到網(wǎng)絡(luò)110。另外,帶有Web站點(diǎn)的Web服務(wù)器130、140和150連接到網(wǎng)絡(luò)。客戶站能夠配置其瀏覽器,以便通過(guò)代理服務(wù)器(即,160、170或180)來(lái)訪問(wèn)各種帶有Web站點(diǎn)的Web服務(wù)器130、140和150。
現(xiàn)在參照?qǐng)D2,根據(jù)本發(fā)明的刊印系統(tǒng)的圖被示出。刊印系統(tǒng)節(jié)點(diǎn)203能夠訪問(wèn)網(wǎng)絡(luò)110。此刊印系統(tǒng)最好包括CPU260、諸如隨機(jī)存儲(chǔ)器(RAM)的存儲(chǔ)器263、以及諸如直接存取存儲(chǔ)設(shè)備(DASD)的存儲(chǔ)設(shè)備262。存儲(chǔ)器263存儲(chǔ)刊印系統(tǒng)邏輯268(如圖3所示),該刊印系統(tǒng)邏輯最好以從DASD262加載到存儲(chǔ)器263中的由CPU260執(zhí)行的計(jì)算機(jī)可執(zhí)行代碼來(lái)實(shí)現(xiàn)??∠到y(tǒng)邏輯268包括文檔收集例程264(如圖4所示)、組織例程265(如圖6所示)和綜合例程266(如圖8所示)??∠到y(tǒng)節(jié)點(diǎn)可以是客戶工作站,或者可以在Web上作為單獨(dú)的服務(wù)器節(jié)點(diǎn)實(shí)現(xiàn)。
參照?qǐng)D3,在305,收集例程264被調(diào)用以根據(jù)至少一個(gè)由用戶提供的初始種子文檔創(chuàng)建超鏈接文檔集。超鏈接文檔的典型實(shí)例包括例如遍布在各種Web站點(diǎn)130-150的網(wǎng)頁(yè)。另一個(gè)實(shí)例包括獨(dú)立刊印的具有參考目錄的學(xué)術(shù)文章。組織例程265被調(diào)用以創(chuàng)建用于文檔集的組織或結(jié)構(gòu)310。這包括分層的子集,如多個(gè)章和節(jié)。綜合例程266被調(diào)用以分辨在集內(nèi)的交叉引用315。如果在一個(gè)文檔內(nèi)的超鏈接或鏈接點(diǎn)指向該集內(nèi)的另一個(gè)文檔中的對(duì)象,則腳注或其它類似的構(gòu)件將與鏈接點(diǎn)相結(jié)合用于指向諸如對(duì)應(yīng)于該對(duì)象的頁(yè)號(hào)或章節(jié)。
刊印例程被調(diào)用以處理綜合文檔320??±坍a(chǎn)生用戶指定的最終的(打印好的或可打印的)輸出。刊印例程能夠產(chǎn)生打印好的硬拷貝或者在另一種介質(zhì)中刊印內(nèi)容,例如寫入CD-ROM。該系統(tǒng)和方法還能夠提供傳真文檔或可打印的電子文檔(例如,Lotus Word Pro或可移植文檔格式(pdf)等格式的文檔)。
參照?qǐng)D4,種子文檔例程被調(diào)用,在此該例程從用戶收集至少一個(gè)初始種子或核心超鏈接文檔405。在本領(lǐng)域內(nèi)的普通技術(shù)人員在本發(fā)明的啟發(fā)下,將會(huì)意識(shí)到還存在著收集種子文檔的替換方法,例如可以通過(guò)讓用戶直接提供這些文檔中的每個(gè)文檔的名稱或URL,或者,可以提供圖形用戶界面以允許用戶從圖形用戶界面(GUI)選擇種子文檔。例如可以利用站點(diǎn)圖界面(例如,圖5)以允許用戶在網(wǎng)站站點(diǎn)圖中選擇網(wǎng)站的文檔子集。擴(kuò)展例程用于在集中添加又一個(gè)文檔410。這通過(guò)在由用戶指定的種子集中提取文檔來(lái)完成。這些文檔可以設(shè)置在本地和/或分布在一個(gè)網(wǎng)絡(luò)中,如因特網(wǎng)。該系統(tǒng)和方法識(shí)別嵌入在每個(gè)文檔中的超鏈接,并將這些引用文檔(例如,那些由作為鏈接點(diǎn)嵌入在網(wǎng)頁(yè)中的URL指向的文檔)添加到集中。本發(fā)明考慮到了上述系統(tǒng)和方法的不同實(shí)現(xiàn)方式。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,用戶能夠定義擴(kuò)展的停止標(biāo)準(zhǔn)。一個(gè)標(biāo)準(zhǔn)是至種子文檔的距離。例如,兩者之間的最大距離指的是僅由種子文檔直接引用的(或通過(guò)超鏈接指向的)文檔和由(種子文檔直接引用的)那些文檔引用的的文檔將包括在集中。停止標(biāo)準(zhǔn)的另一個(gè)實(shí)例是引用計(jì)數(shù)。例如,兩者之間的最小引用計(jì)數(shù)指的是文檔必須由至少兩個(gè)將包括在集中的種子文檔引用。其它的限制可以包括文檔的來(lái)源(例如,網(wǎng)站、服務(wù)器、代理等)、刊印的日期(包括修改文檔的最后時(shí)間)、文檔的大小等。
當(dāng)集從初始種子文檔擴(kuò)展之后,用戶互動(dòng)例程能夠被調(diào)用以允許用戶瀏覽該集并刪除任何不需要的文檔415。用戶還能夠重復(fù)收集處理以匯編更多的文檔。例如,該用戶能夠修改停止標(biāo)準(zhǔn)或者添加附加的種子文檔,并重復(fù)擴(kuò)展例程以獲得新的結(jié)果集。
本領(lǐng)域內(nèi)的技術(shù)人員在本發(fā)明的啟發(fā)下,將會(huì)意識(shí)到對(duì)于擴(kuò)展例程還存在著其它的停止標(biāo)準(zhǔn),例如,文檔的年限(遇到舊的文檔停止)、文檔的分級(jí)(例如,正如由因特網(wǎng)內(nèi)容選擇平臺(tái)所提供的、用于提供有關(guān)電子內(nèi)容的元信息的方法)、頁(yè)面的重要性(例如,識(shí)別出在集中的中心/官方頁(yè)面,其中正如S.Chakrabarti等在文章“通過(guò)分析超鏈接結(jié)構(gòu)和相關(guān)的文本進(jìn)行自動(dòng)的資源匯編(Automatic Resource Compilation by Analyzing HyperlinkStructure and Associated Text)”,《計(jì)算機(jī)網(wǎng)絡(luò)與ISDN系統(tǒng)》1998年4月,第30卷(Computer Network and ISDN Systems,Vol.30,April 1998)中所述,官方頁(yè)面是一主題的權(quán)威,而中心頁(yè)面指向有關(guān)該主題的眾多頁(yè)面)、頁(yè)面的尺寸(避免大的頁(yè)面,或者不考慮短的頁(yè)面)。
本技術(shù)領(lǐng)域的技術(shù)人員能夠看到還存在著創(chuàng)建或獲取種子文檔的不同辦法。一個(gè)可供選擇的辦法是根據(jù)個(gè)人或團(tuán)體的過(guò)去使用歷史,例如從Web瀏覽器的歷史高速緩沖存儲(chǔ)器中,收集種子文檔。
參照?qǐng)D6,組織例程265創(chuàng)建由收集例程264提供的文檔集的結(jié)構(gòu)。在一優(yōu)選實(shí)施例中使用了矢量空間表示法,其中每個(gè)文檔連同其計(jì)數(shù)或頻率被表示為文字矢量(例如,超鏈接)605。具體地說(shuō),每個(gè)文檔能夠表示為(a1,a2,...,an)形式的項(xiàng)矢量。每一項(xiàng)ai具有一文字和與其有關(guān)的權(quán)重wi,其中wi表示該文字的出現(xiàn)次數(shù)。或者,wi表示出現(xiàn)次數(shù)的函數(shù),例如,出現(xiàn)次數(shù)的平方根。將每個(gè)文字視為一個(gè)維度并將對(duì)應(yīng)的計(jì)數(shù)視為在該維度上的坐標(biāo),每個(gè)文檔則被轉(zhuǎn)換成文字的高維度空間的點(diǎn)或矢量。群集算法應(yīng)用于這些矢量以形成由用戶指定的給定數(shù)量的群集或子集610。目前有大量可用的群集方法。例如,在Charu Aggarwal等所著的“投影群集的快速算法(FastAlgorithms for Projected Clustering)”(《1999 ACM SIGMOD會(huì)議會(huì)刊》第61-72頁(yè),1999年5月,費(fèi)城,賓州(Proc.1999 ACM SIGMOD ConferencePhiladelphia,PA,May 1999,pp.61-72))中,作者“探討了被稱為投影群集問(wèn)題的群集問(wèn)題的概況,其中所選維度的子集對(duì)于群集本身是特定的”。又例如,在Charu Aggarwal等所著的“采用受監(jiān)控的群集建立分類化系統(tǒng)的優(yōu)點(diǎn)(On the Merits of Building Catego rization Systems by SupervisedClustering)”(《1999 ACM SIGKDD會(huì)議會(huì)刊》第352-356頁(yè),1999年8月,圣迭哥,力州(Proc.1999 ACM SIGKDD Conference,San Diego,CA,Aug.1999,pp.352-356))中,作者探討了利用“來(lái)自預(yù)先存在的分類系統(tǒng)以便監(jiān)控一組相關(guān)的群集的創(chuàng)建信息,盡管具有某種定義和創(chuàng)建類的自由,而進(jìn)行受監(jiān)視的群集以創(chuàng)建用于文檔分類的類別的集合”。
在子集中的每個(gè)文檔的順序是通過(guò)調(diào)用排序例程來(lái)確定的615。排序例程615的替換方法將在下面參照?qǐng)D7和圖9進(jìn)行描述。示意性標(biāo)題被得到以用于每個(gè)子集620。那些本領(lǐng)域的技術(shù)人員將會(huì)理解還存在著許多可供選擇的實(shí)現(xiàn)方式。在優(yōu)選實(shí)施例中,在每個(gè)子集中最頻繁出現(xiàn)的文字用作示意性標(biāo)題。用戶修改程序能夠被調(diào)用625,從而用戶能夠選擇用于子集的標(biāo)題中的一個(gè)或者輸入替換的標(biāo)題。另外還向用戶提供有子集,用戶能夠修改每個(gè)子集的構(gòu)成或者每個(gè)子集內(nèi)的文檔順序。根據(jù)本發(fā)明,用戶或者采用可附上的注解的形式,或者采用完全成形的(full fledged)介紹性(或概述性)的段落能夠?qū)ο惹疤幚碇械脑Y(jié)構(gòu)進(jìn)行注解(類似于從多篇文章中提取篇章而制作一本書,例如,其中特約編輯介紹每篇文章并隨后附有后續(xù)作品的概述)。
一種用于執(zhí)行初始群集610的替換方法被提供以用于將文檔劃分成多個(gè)子集。該方法能夠按照頁(yè)面的時(shí)間年限,或者通過(guò)URL/域進(jìn)行群集,來(lái)劃分文檔。或者,本發(fā)明略過(guò)群集而僅僅執(zhí)行文檔的排序。例如,一個(gè)用戶能夠利用從種子文檔(根據(jù)某些用戶指定的標(biāo)準(zhǔn)或用戶說(shuō)明所選擇的)中提取出的超鏈接結(jié)構(gòu)來(lái)執(zhí)行寬度優(yōu)先或者深度優(yōu)先的排序。例如,假設(shè)文檔1指向文檔2、3和4,文檔2指向文檔4和5,而文檔3指向文檔6和7。在收集每個(gè)文檔時(shí),該集的寬度優(yōu)先排序基本上是1、2、3、4、5、6和7?;蛘撸景l(fā)明能夠?qū)崿F(xiàn)深度優(yōu)先群集,例如1、2、4、5、3、6、7和4。根據(jù)深度優(yōu)先的實(shí)施例,該方法跟蹤超鏈接直至其達(dá)到盡頭(其中在文檔中再無(wú)法找到另外的超鏈接)或某些預(yù)定的標(biāo)準(zhǔn)。該方法然后返回更高級(jí)別并繼續(xù)收集下一個(gè)超鏈接的文檔。更復(fù)雜的排序方法在圖7中說(shuō)明。
參照?qǐng)D7,定向圖(directed graph)被創(chuàng)建以表示文檔的集或子集705。此定向圖是在組織之前的文檔結(jié)構(gòu)的圖。每個(gè)文檔指向另一個(gè)文檔,并且/或者被另一個(gè)文檔指向。每個(gè)文檔表示為一個(gè)節(jié)點(diǎn),并且如果在文檔i中出現(xiàn)文檔j的超鏈接(或URL),則添加從節(jié)點(diǎn)i到節(jié)點(diǎn)j的定向弧(arc)。順序隊(duì)列被初始化為“空的”,并用于按順序列出文檔。在定向圖中具有最大數(shù)量的流出弧的節(jié)點(diǎn)從圖中去除,并添加到順序隊(duì)列的末尾710。對(duì)能夠從先前去除的節(jié)點(diǎn)的流出弧直接到達(dá)的節(jié)點(diǎn)做標(biāo)記(如果對(duì)它們還沒(méi)有做標(biāo)記的話)720。該方法確定是否還有做標(biāo)記的節(jié)點(diǎn)留在定向圖中730。如果有,從做標(biāo)記的節(jié)點(diǎn)的組中,具有最大數(shù)量的流出弧的節(jié)點(diǎn)從圖中去除并添加到順序隊(duì)列的末尾740。該方法然后確定是否還有遺留的未做標(biāo)記的節(jié)點(diǎn)750。如果沒(méi)有,所有節(jié)點(diǎn)都在提供文檔集順序的順序隊(duì)列中。
根據(jù)圖8所述的本發(fā)明的一個(gè)實(shí)施例,對(duì)超鏈接進(jìn)行的交叉引用在方框805中進(jìn)行分辨。在文檔集中,對(duì)于每個(gè)文檔,所有指向該文檔的超鏈接被識(shí)別。在優(yōu)選實(shí)施例中,腳注或交叉引用被添加到超鏈接。該腳注通過(guò)頁(yè)、節(jié)和章的號(hào)碼指向?qū)?yīng)的文檔。用于一個(gè)集的內(nèi)容表在方框810中被創(chuàng)建。其它的特征,例如索引、內(nèi)容表、表和/或圖、超鏈接的匯總以及詞匯表,也能夠根據(jù)用戶的需要或喜好進(jìn)行添加。
另外,本發(fā)明考慮了可替換的用于創(chuàng)建子集的實(shí)現(xiàn)方式,例如,用戶能夠?qū)γ總€(gè)子集遞歸地重復(fù)圖6中所述的群集算法,以創(chuàng)建子集的層次。或者,可以研究整個(gè)超鏈接結(jié)構(gòu)以創(chuàng)建分層的子集,如圖9所示。如圖7所示,文檔集的定向圖表示用作創(chuàng)建子集的基礎(chǔ)。而且,如圖7所示,每個(gè)文檔表示為一個(gè)節(jié)點(diǎn)。在文檔集的定向圖表示中具有最多流出弧的節(jié)點(diǎn)被選為分層的文檔組織的等級(jí)1的鏈接點(diǎn)節(jié)點(diǎn)905。在由該鏈接點(diǎn)節(jié)點(diǎn)直接指向的節(jié)點(diǎn)中,那些具有直接指回該鏈接點(diǎn)節(jié)點(diǎn)的流出弧的節(jié)點(diǎn)也被指定為等級(jí)1的節(jié)點(diǎn)910。等級(jí)1的節(jié)點(diǎn)根據(jù)來(lái)自每個(gè)節(jié)點(diǎn)的流出鏈接的數(shù)量進(jìn)行排序915(即,數(shù)量越高的節(jié)點(diǎn),其等級(jí)越高)。計(jì)數(shù)器k在方框920中設(shè)定為1。在方框925中,就每個(gè)等級(jí)k的節(jié)點(diǎn)而言,在其下面等級(jí)k+1的節(jié)點(diǎn)是由等級(jí)k的流出弧指向的節(jié)點(diǎn),但還沒(méi)有分配給更早等級(jí)的其它節(jié)點(diǎn)或者處于相同等級(jí)k的在其之前的節(jié)點(diǎn)。該方法確定每個(gè)節(jié)點(diǎn)是否已經(jīng)指配有等級(jí)930。如果有,則該例程完成。否則,該方法確定在方框925的最后一次調(diào)用中是否還存在任何指配給等級(jí)k+1的節(jié)點(diǎn)。如果沒(méi)有,定向圖的那些部分(文檔)從當(dāng)前識(shí)別的鏈接點(diǎn)節(jié)點(diǎn)(或多個(gè)節(jié)點(diǎn))是無(wú)法到達(dá)的。方框905在此被重復(fù),以從圖中其余未指配的部分中選擇另一個(gè)鏈接點(diǎn)節(jié)點(diǎn)。k在方框940中增加1。
隨著現(xiàn)在大多數(shù)信息在因特網(wǎng)上以網(wǎng)頁(yè)或超鏈接文檔的形式獲得,本發(fā)明提供了用于從至少一個(gè)初始種子超鏈接文檔發(fā)展成詳細(xì)的、全面的和綜合的出版物的系統(tǒng)和方法??『头峙浞?wù)被提供。此服務(wù)為印刷廠提供了一個(gè)模型。附加的服務(wù)被提供,例如為用戶解決每個(gè)文檔來(lái)源的版權(quán)問(wèn)題。另外還考慮了提供包裝、分配和/或發(fā)送服務(wù)的方法。分配和發(fā)送服務(wù)即可以采用硬拷貝,也可以采用可打印的軟拷貝的形式。通過(guò)例如客戶工作站的Web瀏覽器界面或文字處理應(yīng)用程序,用戶能夠改變文檔集(如圖4中的用戶互動(dòng)程序(415)所述),或者修改作品的章或節(jié)的標(biāo)題(如圖6中的用戶修改程序625所述)。
本領(lǐng)域的技術(shù)人員能夠看出還可以包括各種附加的服務(wù)。例如,本發(fā)明可以包括或者通過(guò)“回執(zhí)”協(xié)議(類似于諸如Lotus Notes的用于電子郵件的協(xié)議)、或者使用用于發(fā)送/跟蹤物理打印的文檔的跟蹤系統(tǒng)(如聯(lián)邦快遞(Federal Express)使用的系統(tǒng))來(lái)對(duì)文檔跟蹤/發(fā)送的服務(wù)。本發(fā)明還允許(1)本地刊印(在紙上或在其它介質(zhì)上),隨后發(fā)運(yùn),或者(2)在靠近最終用戶的地點(diǎn)遠(yuǎn)程刊印或打印,在那里客戶能夠直接取得文檔。
在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)印刷的拷貝數(shù)量,提供了用于收集和向綜合的文檔的組成部分(即,收集的文檔)的作者分配作品使用費(fèi)的刊印方法。
雖然已經(jīng)描述了用于創(chuàng)建統(tǒng)一的可打印的超鏈接文檔集的系統(tǒng)和方法的實(shí)施例,應(yīng)注意在上述指導(dǎo)的啟發(fā)下本領(lǐng)域的技術(shù)人員可以進(jìn)行修改和變更。因此應(yīng)理解在所附權(quán)利要求限定的本發(fā)明的范圍和精神內(nèi),可以對(duì)刊印的本發(fā)明的特定實(shí)施例進(jìn)行改變。按照專利法的對(duì)已經(jīng)詳細(xì)地和具體地描述了本發(fā)明,由專利證書保護(hù)的所要求和希望的內(nèi)容在所附權(quán)利要求書中給定。
權(quán)利要求
1.一種用于創(chuàng)建元文檔的方法,包括步驟根據(jù)種子文檔收集至少一個(gè)超鏈接文檔;分辨該種子文檔中的鏈接點(diǎn)和該超鏈接文檔中的對(duì)象;和在元文檔內(nèi)根據(jù)各個(gè)位置引用鏈接點(diǎn)和對(duì)象。
2.如權(quán)利要求1所述的方法,其特征在于還包括刊印包括交叉引用的文檔的元文檔的步驟。
3.如權(quán)利要求1所述的方法,其特征在于收集的步驟還包括步驟接收具有指向?qū)ο蟮逆溄狱c(diǎn)的種子文檔;和將包括該對(duì)象的文檔添加到集中。
4.如權(quán)利要求3所述的方法,其特征在于還包括手動(dòng)修改集的步驟。
5.如權(quán)利要求1所述的方法,其特征在于元文檔是種子文檔和被收集的文檔的集。
6.如權(quán)利要求1所述的方法,其特征在于引用步驟包括向鏈接點(diǎn)和對(duì)象中的一個(gè)提供腳注、尾注、內(nèi)容表、以及附錄中的一種。
7.如權(quán)利要求1所述的方法,其特征在于還包括組織收集的文檔和種子文檔的步驟。
8.如權(quán)利要求7所述的方法,其特征在于還包括步驟將每個(gè)超鏈接表示為對(duì)應(yīng)的文檔的維度;確定每個(gè)超鏈接的頻率;將超鏈接的頻率定義為對(duì)應(yīng)的超鏈接維度上的坐標(biāo);和將每個(gè)文檔群集成一矢量。
9.如權(quán)利要求7所述的方法,其特征在于還包括依照寬度優(yōu)先對(duì)集進(jìn)行排序的步驟。
10.如權(quán)利要求7所述的方法,其特征在于還包括依照深度優(yōu)先對(duì)集進(jìn)行排序的步驟。
11.如權(quán)利要求7所述的方法,其特征在于還包括步驟將具有最大數(shù)量連接的文檔定義為第一等級(jí)鏈接點(diǎn);將由該鏈接點(diǎn)指向的和指回該鏈接點(diǎn)的任意文檔定義為第一等級(jí)節(jié)點(diǎn);根據(jù)每個(gè)第一等級(jí)節(jié)點(diǎn)指向的節(jié)點(diǎn)的數(shù)量對(duì)第一等級(jí)節(jié)點(diǎn)進(jìn)行排序;至少定義包括由第一等級(jí)指向的但還未由另一個(gè)節(jié)點(diǎn)指向的文檔的第二等級(jí);一旦確定所有文檔都指配有等級(jí),則完成組織;一旦確定沒(méi)有文檔指配有最后定義的等級(jí),就將具有最大數(shù)量連接的文檔定義為第一等級(jí)的鏈接點(diǎn);和一旦確定文檔已指配有最后定義的等級(jí),就定義包括由下一個(gè)更高等級(jí)指向的但還未由另一個(gè)節(jié)點(diǎn)指向的文檔的又一個(gè)等級(jí)。
12.如權(quán)利要求3所述的方法,其特征在于刊印的步驟還包括打印、存儲(chǔ)、發(fā)傳真以及發(fā)電子郵件中的一種。
13.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可用介質(zhì),該介質(zhì)包含計(jì)算機(jī)可讀程序代碼,用于創(chuàng)建元文檔,該計(jì)算機(jī)程序產(chǎn)品中的計(jì)算機(jī)可讀程序代碼包括計(jì)算機(jī)可讀程序代碼,用于根據(jù)種子文檔收集至少一個(gè)超鏈接文檔;計(jì)算機(jī)可讀程序代碼,用于分辨鏈接點(diǎn)和對(duì)象;和計(jì)算機(jī)可讀程序代碼,用于在元文檔內(nèi)根據(jù)各自的位置引用鏈接點(diǎn)和對(duì)象。
14.如權(quán)利要求13所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序代碼,用于組織收集的文檔和種子文檔。
15.如權(quán)利要求13所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序代碼,用于刊印包括交叉引用的文檔的元文檔。
16.如權(quán)利要求13所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于用于收集的步驟的計(jì)算機(jī)可讀程序代碼還包括計(jì)算機(jī)可讀程序代碼,用于接收具有指向?qū)ο蟮逆溄狱c(diǎn)的種子文檔;和計(jì)算機(jī)可讀程序代碼,用于將包括該對(duì)象的文檔添加到集中。
17.如權(quán)利要求13所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序代碼,用于將具有最大數(shù)量連接的文檔定義為第一等級(jí)鏈接點(diǎn);計(jì)算機(jī)可讀程序代碼,用于將由該鏈接點(diǎn)指向的和指向該鏈接點(diǎn)的任意文檔定義為第一等級(jí)節(jié)點(diǎn);計(jì)算機(jī)可讀程序代碼,用于根據(jù)每個(gè)第一等級(jí)節(jié)點(diǎn)指向的節(jié)點(diǎn)的數(shù)量對(duì)第一等級(jí)節(jié)點(diǎn)進(jìn)行排序;計(jì)算機(jī)可讀程序代碼,用于至少定義包括由第一等級(jí)指向的但還未由另一個(gè)節(jié)點(diǎn)指向的文檔的第二等級(jí);計(jì)算機(jī)可讀程序代碼,用于一旦確定所有文檔都指配有等級(jí),則完成組織;計(jì)算機(jī)可讀程序代碼,用于一旦確定沒(méi)有文檔指配給最后定義的等級(jí),就將具有最大數(shù)量連接的文檔定義為第一等級(jí)的鏈接點(diǎn);和計(jì)算機(jī)可讀程序代碼,用于一旦確定文檔已指配給了最后定義的等級(jí),就定義包括由下一個(gè)更高等級(jí)指向的但還未由另一個(gè)節(jié)點(diǎn)指向的文檔的又一個(gè)等級(jí)。
18.如權(quán)利要求13所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于引用包括向鏈接點(diǎn)和對(duì)象中的一個(gè)提供腳注、尾注、內(nèi)容表、以及附錄中的一種
19.如權(quán)利要求14所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序代碼,用于將每個(gè)超鏈接表示為對(duì)應(yīng)的文檔的維度;計(jì)算機(jī)可讀程序代碼,用于確定每個(gè)超鏈接的頻率;計(jì)算機(jī)可讀程序代碼,用于將超鏈接的頻率定義為對(duì)應(yīng)的超鏈接維度上的坐標(biāo);和計(jì)算機(jī)可讀程序代碼,用于將每個(gè)文檔組成一矢量。
20.如權(quán)利要求14所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序代碼,用于依照寬度優(yōu)先對(duì)集進(jìn)行排序。
21.如權(quán)利要求14所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于還包括計(jì)算機(jī)可讀程序代碼,用于依照深度優(yōu)先對(duì)集進(jìn)行排序。
22.如權(quán)利要求15所述的計(jì)算機(jī)程序產(chǎn)品,其特征在于刊印包括打印、存儲(chǔ)、發(fā)傳真以及發(fā)電子郵件中的一種。
23.一種刊印元文檔的方法,包括步驟在刊印者處接收用戶請(qǐng)求;根據(jù)該用戶請(qǐng)求收集至少一個(gè)超鏈接文檔;利用集對(duì)文檔進(jìn)行交叉引用;和向用戶刊印該集。
24.如權(quán)利要求23所述的方法,其特征在于用戶請(qǐng)求包括電子請(qǐng)求、口頭請(qǐng)求和書面請(qǐng)求中的一種。
25.如權(quán)利要求23所述的方法,其特征在于刊印包括打印、存儲(chǔ)、發(fā)傳真以及發(fā)電子郵件中的一種。
26.如權(quán)利要求23所述的方法,其特征在于還包括確定所收集的文檔的版權(quán)信息的步驟。
27.如權(quán)利要求26所述的方法,其特征在于還包括為使用受版權(quán)保護(hù)的文檔對(duì)作者進(jìn)行補(bǔ)償。
全文摘要
本發(fā)明涉及一種用于創(chuàng)建元文檔的方法。該方法根據(jù)種子文檔收集至少一個(gè)超鏈接文檔,并交叉引用集內(nèi)的文檔。交叉引用包括分辨鏈接點(diǎn)和對(duì)象,并在元文檔內(nèi)根據(jù)各個(gè)位置引用分辨過(guò)的鏈接點(diǎn)和對(duì)象。該方法組織收集的文檔和種子文檔。該方法還刊印包括交叉引用的文檔的元文檔。最好,收集方法包括接收帶有指向?qū)ο蟮逆溄狱c(diǎn)的種子文檔,并將包括該對(duì)象的文檔添加到集中。另外,收集包括手動(dòng)修改集的步驟。元文檔是種子文檔和超鏈接文檔的集。進(jìn)而,引用是腳注、尾注、內(nèi)容表、以及附錄中的一種。
文檔編號(hào)G06F17/30GK1356630SQ0114252
公開(kāi)日2002年7月3日 申請(qǐng)日期2001年11月30日 優(yōu)先權(quán)日2000年12月1日
發(fā)明者布倫特·T·黑爾珀恩, 約爾·馬里克, 菲利普·S·L·俞 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司