專利名稱:電子文檔的計(jì)算機(jī)輔助寫作和瀏覽的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù),特別涉及計(jì)算機(jī)輔助寫作的技術(shù)和相應(yīng)的瀏覽電子文檔的技術(shù)。
背景技術(shù):
在以往,作者使用的文檔寫作工具與用戶使用的文檔管理和瀏覽工具是相互獨(dú)立的,即,作者在寫作時(shí)并不關(guān)心讀者如何來預(yù)覽和利用他/她所寫的內(nèi)容。但是同時(shí),從信息訪問的觀點(diǎn)看,用戶又會(huì)感到很難在購(gòu)買、閱讀文檔之前了解其中的主要內(nèi)容。
而且,由于目前計(jì)算機(jī)對(duì)于自然語言的理解能力還處于字/詞理解的水平,而對(duì)于文檔的預(yù)覽、檢索和管理工具來說,需要句子甚至整篇文章的理解和語義能力,才能夠真正滿足用戶的需要。因此,按照目前的技術(shù)發(fā)展速度,如果按照現(xiàn)有的文檔的寫作以及預(yù)覽、檢索和管理的方式,可以預(yù)計(jì)在一個(gè)較短的將來內(nèi)不可能達(dá)到用戶信息訪問的要求。
發(fā)明內(nèi)容
為了解決以上所述現(xiàn)有技術(shù)中的問題,本發(fā)明提出了作者在寫作文檔的過程中就為后面文檔的預(yù)覽、檢索和管理準(zhǔn)備相關(guān)的信息,即,為作者提供一套工具來方便地為以后用戶的查詢作貢獻(xiàn),更具體地說,準(zhǔn)備結(jié)構(gòu)摘要。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種計(jì)算機(jī)輔助寫作的方法,包括在作者寫作所述電子文檔時(shí),根據(jù)所述電子文檔生成結(jié)構(gòu)摘要;以及與所述電子文檔對(duì)應(yīng)地保存所述結(jié)構(gòu)摘要信息。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種瀏覽電子文檔的方法,包括讀取與電子文檔對(duì)應(yīng)保存的結(jié)構(gòu)摘要信息,所述結(jié)構(gòu)摘要信息包含有該電子文檔的結(jié)構(gòu)摘要;以及響應(yīng)用戶的操作,將所述結(jié)構(gòu)摘要呈現(xiàn)給用戶。
根據(jù)本發(fā)明的再另一個(gè)方面,提供了一種輔助寫作裝置,包括電子文檔編輯單元,用于編輯電子文檔;摘要生成單元,用于根據(jù)所述電子文檔生成結(jié)構(gòu)摘要;以及摘要保存單元,用于與所述電子文檔相對(duì)應(yīng)地保存由所述摘要生成單元生成的結(jié)構(gòu)摘要信息。
根據(jù)本發(fā)明的再另一個(gè)方面,提供了一種電子文檔的瀏覽器,包括結(jié)構(gòu)摘要讀取單元,用于讀取與所述被瀏覽的電子文檔對(duì)應(yīng)保存的結(jié)構(gòu)摘要信息,所述結(jié)構(gòu)摘要信息包含有該電子文檔的結(jié)構(gòu)摘要;以及結(jié)構(gòu)摘要呈現(xiàn)單元,用于將所述結(jié)構(gòu)摘要信息中包含的結(jié)構(gòu)摘要呈現(xiàn)給用戶。
相信通過以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算機(jī)輔助寫作的方法的流程圖;圖2A和2B是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算機(jī)輔助寫作的方法的詳細(xì)流程圖;圖3是展示根據(jù)本發(fā)明的一個(gè)實(shí)施例的輔助寫作裝置的結(jié)構(gòu)的方塊圖;以及圖4是展示根據(jù)本發(fā)明的一個(gè)實(shí)施例的電子文檔的瀏覽器的結(jié)構(gòu)的方塊圖。
具體實(shí)施例方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說明。
計(jì)算機(jī)輔助寫作的方法根據(jù)本發(fā)明的一個(gè)方面,提供了一種計(jì)算機(jī)輔助寫作的方法。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算機(jī)輔助寫作的方法的流程圖。
如圖1所示,首先,在步驟101,作者寫作電子文檔。通常,結(jié)構(gòu)摘要的生成是在作者寫完一篇文檔時(shí)進(jìn)行,當(dāng)然,根據(jù)實(shí)際情況也可以在完成文檔的一部分(例如一個(gè)章節(jié))時(shí)進(jìn)行。
接著,在步驟105,將文檔劃分為一個(gè)或多個(gè)結(jié)構(gòu)段(structuresegment),每個(gè)結(jié)構(gòu)段與一個(gè)主題相關(guān)。通常,一個(gè)文檔(如一篇文章)會(huì)談?wù)撘粋€(gè)主要主題(main topic),但是往往會(huì)將其展開為多個(gè)不同的主題/子主題(topic/subtopic)在不同的結(jié)構(gòu)段中論述。本步驟就是按照所涉及的主題將文檔劃分為多個(gè)結(jié)構(gòu)段,具體地,可以由作者手工指明結(jié)構(gòu)段的位置,也可以自動(dòng)劃分(后面將詳細(xì)描述)。
接著,在步驟110,分別從每個(gè)結(jié)構(gòu)段提取一個(gè)或多個(gè)句子形成結(jié)構(gòu)摘要。這樣,可以保證結(jié)構(gòu)摘要反映出整篇文檔各個(gè)主題內(nèi)容的情況。
然后,在步驟115,與電子文檔對(duì)應(yīng)地保存結(jié)構(gòu)摘要。本發(fā)明沒有對(duì)結(jié)構(gòu)摘要信息的具體保存方式進(jìn)行限定,例如,可以與電子文檔一起保存,即,作為電子文檔的一部分,也可以分開保存,只要能夠與所述電子文檔相對(duì)應(yīng)即可。
下面結(jié)合圖2對(duì)本發(fā)明的計(jì)算機(jī)輔助寫作方法做進(jìn)一步的說明。圖2A和2B是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算機(jī)輔助寫作的方法的詳細(xì)流程圖。
如圖2A所示,首先在步驟201,作者寫作電子文檔。接著在步驟205,選擇一個(gè)文檔段作為種子段(seed paragraph)。在此,根據(jù)文檔的實(shí)際情況,文檔段可以是該文檔中的一個(gè)自然段落、句子或組成部分,在本例子中假設(shè)文檔段就是該文檔中的自然段落。通常,首先會(huì)選擇文檔開始處的文檔段作為種子段。
接著,在步驟210,計(jì)算該種子段與后續(xù)文檔段中關(guān)鍵詞的權(quán)重。在此,關(guān)鍵詞是指文本中去掉停用詞(stop word)后剩下的詞語。例如但不限于此,可以使用if-idf方法來計(jì)算每個(gè)關(guān)鍵詞的權(quán)重,即,每個(gè)關(guān)鍵詞的權(quán)重為if×idf,其中tf是該詞在該文檔段中的出現(xiàn)的頻率(次數(shù)),idf=all_segments/term_segments,all_segments是該文檔中全部文檔段的數(shù)量,term_segments是其中包含該詞的文檔段的數(shù)量。這樣計(jì)算出來的關(guān)鍵詞權(quán)重,會(huì)導(dǎo)致在該文檔段中出現(xiàn)頻率高的詞權(quán)重大,并且在全文中出現(xiàn)范圍越廣的詞權(quán)重小。
接著,在步驟215,將種子段與后續(xù)文檔段分別表示為以關(guān)鍵詞的權(quán)重為分量的向量。例如但不限于,種子段和后序第i段的向量分別為S=(s1,s2,…,sn)Pi=(wi1,wi2,…,win)在此,為了后續(xù)計(jì)算方便,將這些向量的維數(shù)設(shè)為相同,并且代表各個(gè)關(guān)鍵詞的分量一一對(duì)應(yīng)。
接著,在步驟220,利用上述向量計(jì)算種子段與各個(gè)后續(xù)段之間的相似性。具體地,種子段和某個(gè)后續(xù)段的向量之間的夾角可以表現(xiàn)出兩個(gè)段之間的相似性,因此,通??梢杂盟鼈兊膴A角的余弦作為相似性量度,即similarity(S,Pi)=cos(S,Pi)接著,在步驟225,選擇后續(xù)段中相似性高的一個(gè)或多個(gè),與種子段一起作為一個(gè)結(jié)構(gòu)段。具體地,可以預(yù)先設(shè)定一個(gè)閾值,如果后續(xù)段的相似性大于該閾值則認(rèn)為與種子段屬于同一個(gè)結(jié)構(gòu)段,否則則該段不屬于同一個(gè)結(jié)構(gòu)段。進(jìn)而,優(yōu)選地,也將相似性高的文檔段與種子段之間的文檔段選擇作為該結(jié)構(gòu)段的一部分,例如,假設(shè)P1、P2、P3是連續(xù)的三個(gè)后續(xù)文檔段,其中P3與種子段的相似性高于該閾值,則P1、P2、P3都被歸于這一結(jié)構(gòu)段。這是基于作者在寫作文檔時(shí)會(huì)連續(xù)完成一個(gè)主題而不是在多個(gè)主題之間跳躍的假設(shè)。
接著,在步驟230,提取該結(jié)構(gòu)段的主題。在此,可以根據(jù)前面步驟210中計(jì)算的權(quán)值,從該結(jié)構(gòu)段中提取出權(quán)值最大的一定數(shù)量的關(guān)鍵詞作為該結(jié)構(gòu)段的主題,也可以由作者輸入相應(yīng)的主題。
接著,在步驟235,判斷是否全部文檔處理完畢。如果還未處理完畢則進(jìn)行步驟240,將該結(jié)構(gòu)段后的一個(gè)文檔段作為種子段,然后返回步驟210重復(fù)進(jìn)行步驟210至235直到全部文檔處理完。如果步驟235判斷已經(jīng)全部處理完畢,則進(jìn)行到圖2B的步驟245。
如圖2B所示,在步驟245,分析文檔結(jié)構(gòu),為每個(gè)結(jié)構(gòu)段的主題設(shè)權(quán)重以表明其重要性。具體地,可以利用前面說明的if-idf方法,在整個(gè)文檔范圍內(nèi)計(jì)算每個(gè)主題中包含的主題詞的權(quán)重,然后將每個(gè)結(jié)構(gòu)段的主題中的主題詞的權(quán)重之和作為表示該主題重要性的權(quán)重dsi。
接著,在步驟250,計(jì)算在結(jié)構(gòu)段中為每個(gè)句子計(jì)算每個(gè)關(guān)鍵詞的權(quán)重。具體地,可以利用if-idf方法,為每個(gè)關(guān)鍵詞計(jì)算權(quán)重wjwj=tf·idf其中,tf是該詞在該句子中的出現(xiàn)的頻率(次數(shù)),idf=all_sentences/term_sentences,all_sentences是該結(jié)構(gòu)段中全部句子的數(shù)量,term_sentences是其中包含該詞的句子的數(shù)量。這樣計(jì)算出來的關(guān)鍵詞權(quán)重,會(huì)導(dǎo)致在該句子中出現(xiàn)頻率高的詞權(quán)重大,并且在全文中出現(xiàn)范圍越廣的詞權(quán)重小。
接著,在步驟255,在該結(jié)構(gòu)段中為每個(gè)句子計(jì)算重要性valuei。具體地,可以將該句子中包含的全部關(guān)鍵詞的權(quán)重相加,即valuei=Σwj∈Siwj]]>接著,在步驟260,結(jié)合前面計(jì)算的主題權(quán)重dsi和句子重要性valuei,計(jì)算每個(gè)句子的重要性權(quán)值weight(Si),例如可以通過以下公式weight(Si)=dsi·valuei接著,在步驟265,從每個(gè)結(jié)構(gòu)段中選擇重要性權(quán)值weight(Si)最高的一個(gè)或多個(gè)句子,形成結(jié)構(gòu)摘要。優(yōu)選地,每個(gè)結(jié)構(gòu)段中至少要選出一個(gè)句子。
接著,在步驟270,允許作者核實(shí)形成的結(jié)構(gòu)摘要。在此,“核實(shí)”包括作者查看、修改生成的結(jié)構(gòu)摘要,從而保證最終的結(jié)構(gòu)摘要是準(zhǔn)確地、完整地反映該文檔內(nèi)容的,并且具有良好的可讀性。
然后,在步驟275,將結(jié)構(gòu)摘要作為電子文檔的知識(shí)標(biāo)記一起保存。例如,在電子文檔的結(jié)尾處附加知識(shí)標(biāo)記(knowledge tag)<StructureSummary>
<Yao Ming scored all 18 of his points in the first half and reserve Maurice Taylor had 11 of his 17points in the fourth quarter in the Houston Rockets′105-90 victory over the Los Angeles Clippers105-90 Monday night.
Kobe Bryant scored 28 points,Karl Malone had 20 points and 10 rebounds and Gary Payton added17 points and 10 assists to lead the Los Angeles Lakers to a 121-89 drubbing of the Memphis Grizzlieson Sunday night.
……</StructureSummary>
或者,也可以在電子文檔的頭部定義結(jié)構(gòu)摘要知識(shí)標(biāo)記類型,在電子文檔的正文中利用該標(biāo)記指明摘要包含的句子的方式。
進(jìn)而,優(yōu)選地,在劃分完結(jié)構(gòu)段之后和/或提取結(jié)構(gòu)段的主題之后,也可以允許作者參與核實(shí),例如,作者可以按照自己的理解(寫作意圖)改變結(jié)構(gòu)段的劃分和指定更合理的主題,從而通過及時(shí)有效的人機(jī)交互,完成結(jié)構(gòu)摘要的準(zhǔn)備。
通過以上說明可知,本發(fā)明的計(jì)算機(jī)輔助寫作方法,可以輔助作者在寫作的過程中完成結(jié)構(gòu)摘要的準(zhǔn)備,在不過多增加作者負(fù)擔(dān)的情況下,利用作者對(duì)于該文檔的理解(這肯定是最準(zhǔn)確的理解),來保證生成的結(jié)構(gòu)摘要的準(zhǔn)確性和可讀性。并且,因?yàn)榭梢詾橐粋€(gè)文檔生成可以充分反映該文檔各部分內(nèi)容的結(jié)構(gòu)摘要,因此在利用這些結(jié)構(gòu)摘要信息進(jìn)行預(yù)覽時(shí),可以更準(zhǔn)確和全面地了解文檔內(nèi)容,從而得到高的用戶滿意度。
瀏覽電子文檔的方法在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個(gè)方面,提供了一種瀏覽電子文檔的方法,該電子文檔是通過上述計(jì)算機(jī)輔助寫作的方法產(chǎn)生的文檔,即,與該文檔對(duì)應(yīng)地保存有結(jié)構(gòu)摘要信息。
本發(fā)明的瀏覽電子文檔的方法,與現(xiàn)有技術(shù)的區(qū)別在于,包括以下步驟(1)讀取與電子文檔對(duì)應(yīng)保存的結(jié)構(gòu)摘要信息,所述結(jié)構(gòu)摘要信息包含有該電子文檔的結(jié)構(gòu)摘要。具體地,根據(jù)保存結(jié)構(gòu)摘要信息的方式,將結(jié)構(gòu)摘要信息讀出,例如,如果結(jié)構(gòu)摘要信息是被保存在文檔的尾部作為知識(shí)標(biāo)記,則相應(yīng)地識(shí)別出該知識(shí)標(biāo)記并將其中信息讀出。以及
(2)響應(yīng)用戶的操作,將所述結(jié)構(gòu)摘要呈現(xiàn)給用戶。如果用戶希望看該文檔的結(jié)構(gòu)摘要,則可以,例如,通過點(diǎn)擊菜單或者按鈕等操作,將讀取出的結(jié)構(gòu)摘要顯示給用戶,供其瀏覽。
通過以上對(duì)本實(shí)施例的描述可知,如果采用本實(shí)施例的瀏覽電子文檔的方法,則可以利用由本發(fā)明前述的輔助寫作方法編制的電子文檔中的結(jié)構(gòu)摘要信息,將由作者核實(shí)過的結(jié)構(gòu)摘要提供給讀者觀看,讓讀者了解該文檔中的大致結(jié)構(gòu)和內(nèi)容,從而可以節(jié)省讀者的閱讀時(shí)間。
輔助寫作裝置在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個(gè)方面,提供了一種輔助寫作裝置。圖3是展示根據(jù)本發(fā)明的一個(gè)實(shí)施例的輔助寫作裝置的結(jié)構(gòu)的方塊圖。
如圖3所示,該輔助寫作裝置300,包括電子文檔編輯單元301,用于編輯電子文檔,它可以是一個(gè)獨(dú)立的文檔編輯單元,也可以共用已有的文檔編輯器,例如,MS Word或WPS等等;摘要生成單元302,用于根據(jù)所述電子文檔生成結(jié)構(gòu)摘要;摘要保存單元305,用于與電子文檔相對(duì)應(yīng)地保存由摘要生成單元302生成的結(jié)構(gòu)摘要信息;摘要評(píng)價(jià)單元303,用于允許作者對(duì)由摘要生成單元302生成的結(jié)構(gòu)摘要進(jìn)行評(píng)價(jià)、修改;摘要緩存304,用于臨時(shí)保存由摘要生成單元302生成的結(jié)構(gòu)摘要。
其中,摘要生成單元302,還可以包括結(jié)構(gòu)段劃分單元,用于將所述文檔劃分為一個(gè)或多個(gè)結(jié)構(gòu)段,每個(gè)所述結(jié)構(gòu)段與一個(gè)主題相關(guān);以及句子提取單元,用于分別從所述結(jié)構(gòu)段劃分單元?jiǎng)澐值拿總€(gè)所述結(jié)構(gòu)段提取一個(gè)或多個(gè)句子形成結(jié)構(gòu)摘要。
進(jìn)而,輔助寫作裝置300可以進(jìn)一步包括相似性計(jì)算裝置,用于計(jì)算文檔段之間的相似性的裝置。摘要生成單元302的結(jié)構(gòu)段劃分單元,利用所述相似性計(jì)算裝置來計(jì)算文檔段之間的相似性,選擇相似性高的一個(gè)或多個(gè)文檔段作為一個(gè)結(jié)構(gòu)段。
進(jìn)而,如前所述,該相似性計(jì)算裝置,可以使用以文檔段中關(guān)鍵詞為分量的向量來計(jì)算文檔段之間的相似性;該句子提取單元,可以根據(jù)句子在結(jié)構(gòu)段中的重要性和該結(jié)構(gòu)段的重要性來進(jìn)行提取。
進(jìn)而,輔助寫作裝置300可以進(jìn)一步包括關(guān)鍵詞權(quán)重計(jì)算單元,用于根據(jù)關(guān)鍵詞在結(jié)構(gòu)段中的出現(xiàn)次數(shù)和在所述結(jié)構(gòu)段中包含該關(guān)鍵詞的句子的數(shù)量,計(jì)算在所述結(jié)構(gòu)段中每個(gè)關(guān)鍵詞的權(quán)重;和主題權(quán)重計(jì)算單元,用于根據(jù)每個(gè)所述主題中的主題詞在所述文檔中的出現(xiàn)次數(shù)和包含該主題詞的句子的數(shù)量,計(jì)算所述主題詞的權(quán)重。
以上描述的本實(shí)施例的輔助寫作裝置,在操作上,可以實(shí)現(xiàn)前面實(shí)施例中描述的計(jì)算機(jī)輔助寫作方法,可以輔助作者在寫作的過程中完成結(jié)構(gòu)摘要的準(zhǔn)備,在不過多增加作者負(fù)擔(dān)的情況下,利用作者對(duì)于該文檔的理解,來保證生成結(jié)構(gòu)摘要的準(zhǔn)確性和可讀性。并且,因?yàn)榭梢詾橐粋€(gè)文檔生成可以充分反映該文檔各部分內(nèi)容的結(jié)構(gòu)摘要,因此在利用這些結(jié)構(gòu)摘要信息進(jìn)行預(yù)覽時(shí),可以更準(zhǔn)確和全面了解文檔內(nèi)容,從而得到高的用戶滿意度。
電子文檔的瀏覽器在同一發(fā)明構(gòu)思下,根據(jù)本發(fā)明的另一個(gè)方面,提供了一種電子文檔的瀏覽器,該電子文檔是通過上述計(jì)算機(jī)輔助寫作的方法產(chǎn)生的文檔,即,與該文檔對(duì)應(yīng)地保存有結(jié)構(gòu)摘要信息。
圖4是展示根據(jù)本發(fā)明的一個(gè)實(shí)施例的電子文檔的瀏覽器的結(jié)構(gòu)的方塊圖。如圖4所示,本實(shí)施例的電子文檔瀏覽器400,包括電子文檔瀏覽單元401,用于瀏覽電子文檔的內(nèi)容,它可以是一個(gè)現(xiàn)有技術(shù)中的瀏覽器,例如,MS Word Viewer,MS Internet Explorer,Netscape Navigator,Acrobat Reader等等;結(jié)構(gòu)摘要信息讀取單元402,用于讀取與所述電子文檔對(duì)應(yīng)保存的結(jié)構(gòu)摘要信息,具體地,根據(jù)保存結(jié)構(gòu)摘要信息的方式,將結(jié)構(gòu)摘要信息讀出,例如,如果結(jié)構(gòu)摘要信息是被保存在文檔的尾部作為知識(shí)標(biāo)記,則相應(yīng)地識(shí)別出該知識(shí)標(biāo)記并將其中信息讀出;以及結(jié)構(gòu)摘要呈現(xiàn)單元403,用于將由結(jié)構(gòu)摘要信息讀取單元402讀取的結(jié)構(gòu)摘要信息中的結(jié)構(gòu)摘要呈現(xiàn)給用戶,具體地,可以根據(jù)用戶的操作,例如點(diǎn)擊菜單或者按鈕等,將讀取出的結(jié)構(gòu)摘要顯示給用戶,供其瀏覽。
通過以上對(duì)本實(shí)施例的描述可知,本實(shí)施例的電子文檔瀏覽器可以實(shí)施本發(fā)明上述瀏覽電子文檔的方法,利用由本發(fā)明前述的輔助寫作方法編制的電子文檔中的結(jié)構(gòu)摘要信息,將由作者核實(shí)過的結(jié)構(gòu)摘要提供給讀者觀看,讓讀者了解該文檔中的大致結(jié)構(gòu)和內(nèi)容,從而可以節(jié)省讀者的閱讀時(shí)間。
本發(fā)明的上述輔助寫作裝置、電子文檔的瀏覽器以及它們各自的組成部分可以以硬件和軟件方式實(shí)現(xiàn),并且根據(jù)需要可以和其他裝置結(jié)合,例如,可以實(shí)現(xiàn)在個(gè)人計(jì)算機(jī)、筆記本計(jì)算機(jī)、掌上型計(jì)算機(jī)、PDA、文字處理機(jī)等各種帶有計(jì)算功能的設(shè)備上,并且可以物理地分離而操作上互相連接完成功能。
以上雖然通過一些示例性的實(shí)施例對(duì)本發(fā)明的計(jì)算機(jī)輔助寫作的方法、瀏覽電子文檔的方法、輔助寫作裝置以及電子文檔的瀏覽器進(jìn)行了詳細(xì)的描述,但是以上這些實(shí)施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種計(jì)算機(jī)輔助寫作的方法,其特征在于,包括在作者寫作所述電子文檔時(shí),根據(jù)所述電子文檔生成結(jié)構(gòu)摘要;以及與所述電子文檔對(duì)應(yīng)地保存所述結(jié)構(gòu)摘要信息。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述生成結(jié)構(gòu)摘要的步驟,包括將所述文檔劃分為一個(gè)或多個(gè)結(jié)構(gòu)段,每個(gè)所述結(jié)構(gòu)段與一個(gè)主題相關(guān);以及分別從每個(gè)所述結(jié)構(gòu)段提取一個(gè)或多個(gè)句子作為結(jié)構(gòu)摘要。
3.根據(jù)權(quán)利要求2所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述將所述文檔劃分為一個(gè)或多個(gè)結(jié)構(gòu)段的步驟,包括選擇一個(gè)文檔段作為種子段;計(jì)算所述種子段與其后續(xù)各文檔段的相似性;選擇所述后續(xù)文本段中相似性高的一個(gè)或多個(gè)文檔段連同所述種子段一起作為一個(gè)結(jié)構(gòu)段;以及將該結(jié)構(gòu)段之后的一個(gè)文檔段作為種子段,重復(fù)前述計(jì)算和選擇步驟。
4.根據(jù)權(quán)利要求3所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述計(jì)算所述種子段與其后續(xù)各文檔段的相似性的步驟,包括計(jì)算所述種子段與其后續(xù)各文檔段中每個(gè)關(guān)鍵詞的權(quán)重;將所述種子段與其后續(xù)各文檔段分別表示為以關(guān)鍵詞的權(quán)重為分量的向量;以及利用所述種子段的向量與后續(xù)各文檔段的向量,計(jì)算它們的相似性。
5.根據(jù)權(quán)利要求4所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述計(jì)算所述種子段與其后續(xù)各文檔段中每個(gè)關(guān)鍵詞的權(quán)重的步驟,包括根據(jù)每個(gè)所述關(guān)鍵詞在所述文檔段中的出現(xiàn)次數(shù)和在所述文檔中包含該關(guān)鍵詞的文檔段的數(shù)量,計(jì)算該關(guān)鍵詞的權(quán)重。
6.根據(jù)權(quán)利要求4所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述利用所述種子段的向量與后續(xù)各文檔段的向量計(jì)算它們的相似性的步驟,包括計(jì)算所述種子段的向量與后續(xù)各文檔段的向量之間夾角的余弦作為相似性量度。
7.根據(jù)權(quán)利要求3所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述選擇所述后續(xù)文本段中相似性高的一個(gè)或多個(gè)文檔段連同所述種子段一起作為一個(gè)結(jié)構(gòu)段的步驟,進(jìn)一步也將所述相似性高的文檔段與所述種子段之間的文檔段選擇作為該結(jié)構(gòu)段的一部分。
8.根據(jù)權(quán)利要求3所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,進(jìn)一步包括允許作者核實(shí)劃分的結(jié)構(gòu)段。
9.根據(jù)權(quán)利要求2所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述分別從每個(gè)所述結(jié)構(gòu)段提取一個(gè)或多個(gè)句子作為結(jié)構(gòu)摘要的步驟,包括根據(jù)每個(gè)所述關(guān)鍵詞在所述結(jié)構(gòu)段中的出現(xiàn)次數(shù)和在所述結(jié)構(gòu)段中包含該關(guān)鍵詞的句子的數(shù)量,計(jì)算在所述結(jié)構(gòu)段中每個(gè)關(guān)鍵詞的權(quán)重;根據(jù)所述關(guān)鍵詞的權(quán)重,計(jì)算所述文檔中每個(gè)句子的重要性;以及根據(jù)每個(gè)句子的重要性,為每個(gè)所述結(jié)構(gòu)段選擇一個(gè)或多個(gè)句子。
10.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述分別從每個(gè)所述結(jié)構(gòu)段提取一個(gè)或多個(gè)句子作為結(jié)構(gòu)摘要的步驟,還包括根據(jù)每個(gè)所述主題中的主題詞在所述文檔中的出現(xiàn)次數(shù)和包含該主題詞的句子的數(shù)量,計(jì)算所述主題詞的權(quán)重;以及根據(jù)每個(gè)所述主題中的主題詞的權(quán)重,計(jì)算每個(gè)所述主題的權(quán)重;其中,為每個(gè)所述結(jié)構(gòu)段選擇一個(gè)或多個(gè)句子的步驟,包括,結(jié)合每個(gè)句子的重要性和所在結(jié)構(gòu)段對(duì)應(yīng)的主題的權(quán)重,選擇一個(gè)或多個(gè)句子。
11.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述與所述電子文檔對(duì)應(yīng)地保存所述結(jié)構(gòu)摘要信息的步驟,包括將所述結(jié)構(gòu)摘要信息作為知識(shí)標(biāo)記保存在所述電子文檔中。
12.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,所述與所述電子文檔對(duì)應(yīng)地保存所述結(jié)構(gòu)摘要信息的步驟,包括將所述結(jié)構(gòu)摘要信息保存為與所述電子文檔相關(guān)聯(lián)的文件。
13.根據(jù)權(quán)利要求1~12中任意一項(xiàng)所述的計(jì)算機(jī)輔助寫作的方法,其特征在于,還包括在生成所述結(jié)構(gòu)摘要之后,允許作者核實(shí)所述結(jié)構(gòu)摘要。
14.一種瀏覽電子文檔的方法,其特征在于,包括讀取與電子文檔對(duì)應(yīng)保存的結(jié)構(gòu)摘要信息,所述結(jié)構(gòu)摘要信息包含有該電子文檔的結(jié)構(gòu)摘要;以及響應(yīng)用戶的操作,將所述結(jié)構(gòu)摘要呈現(xiàn)給用戶。
15.一種輔助寫作裝置,其特征在于,包括電子文檔編輯單元,用于編輯電子文檔;摘要生成單元,用于根據(jù)所述電子文檔生成結(jié)構(gòu)摘要;以及摘要保存單元,用于與所述電子文檔相對(duì)應(yīng)地保存由所述摘要生成單元生成的結(jié)構(gòu)摘要信息。
16.根據(jù)權(quán)利要求15所述的輔助寫作裝置,其特征在于,進(jìn)一步包括摘要評(píng)價(jià)單元,用于允許作者對(duì)由所述摘要生成單元生成的結(jié)構(gòu)摘要進(jìn)行評(píng)價(jià)、修改。
17.根據(jù)權(quán)利要求15所述的輔助寫作裝置,其特征在于,所述摘要生成單元,包括結(jié)構(gòu)段劃分單元,用于將所述文檔劃分為一個(gè)或多個(gè)結(jié)構(gòu)段,每個(gè)所述結(jié)構(gòu)段與一個(gè)主題相關(guān);以及句子提取單元,用于分別從所述結(jié)構(gòu)段劃分單元?jiǎng)澐值拿總€(gè)所述結(jié)構(gòu)段提取一個(gè)或多個(gè)句子形成結(jié)構(gòu)摘要。
18.根據(jù)權(quán)利要求17所述的輔助寫作裝置,其特征在于,進(jìn)一步包括相似性計(jì)算裝置,用于計(jì)算文檔段之間的相似性的裝置;所述結(jié)構(gòu)段劃分單元,利用所述相似性計(jì)算裝置來計(jì)算文檔段之間的相似性,選擇相似性高的一個(gè)或多個(gè)文檔段作為一個(gè)結(jié)構(gòu)段。
19.根據(jù)權(quán)利要求17所述的輔助寫作裝置,其特征在于,所述相似性計(jì)算裝置,使用以文檔段中關(guān)鍵詞為分量的向量來計(jì)算文檔段之間的相似性。
20.根據(jù)權(quán)利要求17所述的輔助寫作裝置,其特征在于,所述句子提取單元,根據(jù)句子在結(jié)構(gòu)段中的重要性和該結(jié)構(gòu)段的重要性來進(jìn)行提取。
21.根據(jù)權(quán)利要求17所述的輔助寫作裝置,其特征在于,進(jìn)一步包括關(guān)鍵詞權(quán)重計(jì)算單元,用于根據(jù)關(guān)鍵詞在結(jié)構(gòu)段中的出現(xiàn)次數(shù)和在所述結(jié)構(gòu)段中包含該關(guān)鍵詞的句子的數(shù)量,計(jì)算在所述結(jié)構(gòu)段中每個(gè)關(guān)鍵詞的權(quán)重;主題權(quán)重計(jì)算單元,用于根據(jù)每個(gè)所述主題中的主題詞在所述文檔中的出現(xiàn)次數(shù)和包含該主題詞的句子的數(shù)量,計(jì)算所述主題詞的權(quán)重。
22.一種電子文檔的瀏覽器,其特征在于,包括結(jié)構(gòu)摘要讀取單元,用于讀取與所述被瀏覽的電子文檔對(duì)應(yīng)保存的結(jié)構(gòu)摘要信息,所述結(jié)構(gòu)摘要信息包含有該電子文檔的結(jié)構(gòu)摘要;以及結(jié)構(gòu)摘要呈現(xiàn)單元,用于將所述結(jié)構(gòu)摘要信息中包含的結(jié)構(gòu)摘要呈現(xiàn)給用戶。
全文摘要
本發(fā)明提供了計(jì)算機(jī)輔助寫作的方法、瀏覽電子文檔的方法、輔助寫作裝置以及電子文檔的瀏覽器。所述計(jì)算機(jī)輔助寫作的方法,包括在作者寫作所述電子文檔時(shí),根據(jù)所述電子文檔生成結(jié)構(gòu)摘要;以及與所述電子文檔對(duì)應(yīng)地保存所述結(jié)構(gòu)摘要信息。
文檔編號(hào)G06F17/00GK1629835SQ200310121288
公開日2005年6月22日 申請(qǐng)日期2003年12月17日 優(yōu)先權(quán)日2003年12月17日
發(fā)明者劉世霞, 楊力平 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司