手機(jī)端分模塊顯示word文檔內(nèi)容的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于手機(jī)端分模塊顯示word文檔內(nèi)容自動(dòng)拆分的方法及系統(tǒng),包括以下步驟:1)、通過(guò)Aspose.Words利用計(jì)算機(jī)程序語(yǔ)言解析word文檔;2)、提取word文檔中所有圖片導(dǎo)出到指定文件夾;3)、提取word中的表格信息,轉(zhuǎn)換成圖片格式存入指定文件夾;4)、拆分word文檔將所有信息逐行提取,以json格式寫入到*.Json文件并保存到指定文件夾;5)、手機(jī)端導(dǎo)入并分模塊展示。本發(fā)明的有益效果是:由于采用上述技術(shù)方案,可以快速批量的拆分word文檔并能通過(guò)手機(jī)端進(jìn)行快速展示并切換內(nèi)容,極大地降低了原人工處理的工作量。
【專利說(shuō)明】
手機(jī)端分模塊顯示W(wǎng)O r d文檔內(nèi)容的方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于電力規(guī)劃咨詢領(lǐng)域,尤其是涉及一種基于手機(jī)端分模塊顯示word文檔內(nèi)容自動(dòng)拆分的方法及系統(tǒng)。
【背景技術(shù)】
[0002]在進(jìn)行電力規(guī)劃相關(guān)工作時(shí),常常需要對(duì)大量的規(guī)劃成果放到手機(jī)端進(jìn)行快速的檢索與展示,大多數(shù)情況下,操作人員需要將大量的規(guī)劃文檔word格式,手動(dòng)的將截圖機(jī)表格截圖導(dǎo)出到一個(gè)目錄。并按照目錄段落去拆分整理成手機(jī)端能夠使用的*.json格式文件,極大地增加了工作量,這就亟需一種可以快速的拆分word文檔并進(jìn)行展示的方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0003]有鑒于此,本發(fā)明旨在提出一種基于手機(jī)端分模塊顯示word文檔內(nèi)容自動(dòng)拆分的方法及系統(tǒng),可以快速的拆分word文檔并在手機(jī)端進(jìn)行快速的檢索與展示。
[0004]本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
[0005]—種手機(jī)端分模塊顯示worcl文檔內(nèi)容的方法,包括以下步驟:
[0006]I)通過(guò)Aspose動(dòng)態(tài)鏈接庫(kù)的Aspose.Words讀取并解析word文檔;
[0007]2)檢索圖片并導(dǎo)出;
[0008]3)檢索表格轉(zhuǎn)換成圖片并導(dǎo)出;
[0009]4)通過(guò)OpenCv加載圖片;
[00?0] 5)分標(biāo)題段落拆分word文檔;
[0011]6)手機(jī)端導(dǎo)入并展示。
[0012]進(jìn)一步的,所述步驟2)通過(guò)c#語(yǔ)言檢索word文檔中的圖片,輸出成bmp格式圖片,到指定文件路徑下。
[0013I進(jìn)一步的,所述步驟3)通過(guò)c#語(yǔ)言檢索word文檔中的表格,將表格轉(zhuǎn)輸出成bmp格式圖片,導(dǎo)出到指定文件路徑下。
[0014]進(jìn)一步的,所述步驟4)將圖片進(jìn)行灰度圖像轉(zhuǎn)換,使其二值化,去掉圖像中的白邊情況并轉(zhuǎn)存成jpg格式圖像,壓縮圖像的大小。
[0015]進(jìn)一步的,所述步驟5)將所有拆分的內(nèi)容轉(zhuǎn)換成json格式,并輸出成json格式文件到指定文件路徑。
[0016]進(jìn)一步的,所述步驟6)將經(jīng)過(guò)上述步驟得到的包含多個(gè)jpg格式圖像和json格式的文件通過(guò)手機(jī)端導(dǎo)入,并解析json格式文件,根據(jù)j son中的key與value來(lái)分模塊,并加載模塊中的詳細(xì)內(nèi)容。
[0017]本發(fā)明的另一方面,一種手機(jī)端分模塊顯示word文檔內(nèi)容的系統(tǒng),包括word文檔解析模塊、圖像轉(zhuǎn)化模塊、圖像切割模塊、輸出模塊、手機(jī)端加載展示模塊,所述word文檔解析模塊用于通過(guò)Aspose.Words讀取并解析word文檔,將所有文字內(nèi)容更加標(biāo)題段落進(jìn)行拆分;所述圖像轉(zhuǎn)化模塊、圖像切割模塊用于抽取文檔中的圖片,檢索表格并轉(zhuǎn)換成圖片;所述輸出模塊用于將所有拆分后內(nèi)容輸出到指定文件路徑;所述手機(jī)端加載展示模塊用于通過(guò)手機(jī)端導(dǎo)入并分模塊展示。
[0018]進(jìn)一步的,所述圖像轉(zhuǎn)化模塊、圖像切割模塊轉(zhuǎn)換成的圖片為BMP圖片。
[0019]進(jìn)一步的,所述word文檔解析模塊拆分文字內(nèi)容生成的文件為json文件。
[0020]進(jìn)一步的,所述圖像轉(zhuǎn)化模塊鏈接OpenCv,用于將圖片進(jìn)行灰度圖像轉(zhuǎn)換,使其二值化,去掉圖像中的白邊情況并轉(zhuǎn)存成jpg格式圖像,壓縮圖像的大小。
[0021]本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:由于采用上述技術(shù)方案,可以快速解析并拆分word文檔導(dǎo)出成手機(jī)端可以支持的*.json格式文件,完成整個(gè)拆分導(dǎo)入的過(guò)程,極大地降低了原人工拆分錄入的工作量。
【附圖說(shuō)明】
[0022]圖1是本發(fā)明的流程圖。
【具體實(shí)施方式】
[0023]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍,在不沖突的情況下,本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0024]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是本發(fā)明還可以采用其他不同于在此描述的其它方式來(lái)實(shí)施,本領(lǐng)域技術(shù)人員可以在不違背本發(fā)明內(nèi)涵的情況下做類似推廣,因此本發(fā)明不受下面公開(kāi)的具體實(shí)施例的限制。
[0025]在本發(fā)明的描述中,需要理解的是,原理介紹:
[0026]json格式文檔:JS0N(JavaScript Object Notat1n)是一種輕量級(jí)的數(shù)據(jù)交換格式。它基于ECMAScript的一個(gè)子集。JSON采用完全獨(dú)立于語(yǔ)言的文本格式,但是也使用了類似于C語(yǔ)言家族的習(xí)慣(包括C、C++、C#、Java、JavaScript、Perl、Python等)。這些特性使JSON成為理想的數(shù)據(jù)交換語(yǔ)言。易于人閱讀和編寫,同時(shí)也易于機(jī)器解析和生成(一般用于提升網(wǎng)絡(luò)傳輸速率)。
[0027]json格式定義:
[0028]{
[0029]"gridl":
[0030][{"type":"text","value" Z'XXXXXX"},
[0031 ] {"type":"image","value":"XXXXXX"}]
[0032]}
[0033]Aspose.word:Aspose.Words是一款先進(jìn)的類庫(kù),通過(guò)它可以直接在各個(gè)應(yīng)用程序中執(zhí)行各種文檔處理任務(wù)。Aspose.Words 支持 DOC,00XML,RTF,HTML,OpenDocument, PDF,XPS,EPUB和其他格式。使用Aspose.Words,您可以生成,更改,轉(zhuǎn)換,渲染和打印文檔而不使用Microsoft Word。
[0034]C#語(yǔ)言:C#語(yǔ)言(C sharp)是微軟對(duì)這一問(wèn)題的解決方案。C#是一種最新的、面向?qū)ο蟮木幊陶Z(yǔ)言。它使得程序員可以快速地編寫各種基于Microsoft.NET平臺(tái)的應(yīng)用程序,Microsoft.NET提供了一系列的工具和服務(wù)來(lái)最大程度地開(kāi)發(fā)利用計(jì)算與通訊領(lǐng)域。
[0035]正是由于C#面向?qū)ο蟮淖吭皆O(shè)計(jì),使它成為構(gòu)建各類組件的理想之選一一無(wú)論是高級(jí)的商業(yè)對(duì)象還是系統(tǒng)級(jí)的應(yīng)用程序。使用簡(jiǎn)單的C#語(yǔ)言結(jié)構(gòu),這些組件可以方便的轉(zhuǎn)化為XML網(wǎng)絡(luò)服務(wù),從而使它們可以由任何語(yǔ)言在任何操作系統(tǒng)上通過(guò)Internet進(jìn)行調(diào)用。
[0036]OpenCv:OpenCV的全稱是:Open Source Computer Vis1n LibraryaOpenCV是一個(gè)基于(開(kāi)源)發(fā)行的跨平臺(tái)計(jì)算機(jī)視覺(jué)庫(kù),可以運(yùn)行在Linux、Windows和Mac OS操作系統(tǒng)上。它輕量級(jí)而且高效--由一系列C函數(shù)和少量C++類構(gòu)成,同時(shí)提供了Python、Ruby、
MATLAB等語(yǔ)言的接口,實(shí)現(xiàn)了圖像處理和計(jì)算機(jī)視覺(jué)方面的很多通用算法。
[0037]OpenCV用C++語(yǔ)言編寫,它的主要接口也是C++語(yǔ)言,但是依然保留了大量的C語(yǔ)言接口。該庫(kù)也有大量的Python Java and MATLAB/0CTAVE(版本2.5)的接口。這些語(yǔ)言的API接口函數(shù)可以通過(guò)在線文檔獲得。如今也提供對(duì)于C#,Ch,Ruby的支持。
[0038]本發(fā)明包括以下步驟:
[0039]I)、通過(guò)Aspose.Words讀取并解析word文檔;
[0040]2)、檢索圖片并導(dǎo)出:通過(guò)c#語(yǔ)言檢索word文檔中的圖片,輸出成*.bmp格式圖片,到指定文件路徑下;
[0041]3)、檢索表格轉(zhuǎn)換成圖片并導(dǎo)出:通過(guò)計(jì)c#檢索word文檔中的表格,通過(guò)算法將表格轉(zhuǎn)輸出成*.bmp格式圖片,導(dǎo)出到指定文件路徑下;
[0042]4)、上述步驟得到word文檔中所有圖片及表格轉(zhuǎn)換后的圖片。通過(guò)OpenCv加載圖像,將圖像進(jìn)行灰度圖像轉(zhuǎn)換,使其二值化,去掉圖像中的白邊情況并轉(zhuǎn)存成*.jpg格式圖像,壓縮圖像的大?。?br>[0043]5)、分標(biāo)題段落拆分word文檔,將所有內(nèi)容轉(zhuǎn)換成json格式,并輸出成*.json格式文件到指定文件夾;
[0044]6)、手機(jī)端導(dǎo)入并展示:經(jīng)過(guò)上述步驟我們得到一個(gè)包含多個(gè)*.jpg格式圖像和*.j son格式的文件的文件夾。通過(guò)手機(jī)端導(dǎo)入文件夾,并解析*.j son格式文件。根據(jù)j son中的key與value來(lái)分模塊。并加載模塊中的詳細(xì)內(nèi)容。
[0045]本方法可以通過(guò)以下系統(tǒng)實(shí)現(xiàn):
[0046]一種基于手機(jī)端分模塊顯示word文檔內(nèi)容自動(dòng)拆分的方法,其特征在于:包括word文檔解析模塊、圖像轉(zhuǎn)化模塊、圖像切割模塊、輸出模塊、手機(jī)端加載展示模塊,所述通過(guò)Aspose.Words讀取并解析word文檔,抽取文檔中的圖片,檢索表格并轉(zhuǎn)換成圖片以及將所有文字內(nèi)容更加標(biāo)題段落進(jìn)行拆分,將所有拆分后內(nèi)容整理成j son格式文檔并導(dǎo)出成*.j son格式文件。最終通過(guò)手機(jī)端程序?qū)氩⒎帜K展示。
[0047]在實(shí)際測(cè)試過(guò)程中我們發(fā)現(xiàn)對(duì)于對(duì)于大量的電力規(guī)劃報(bào)告格式基本是統(tǒng)一的,在原始的方式中人工拆分往往會(huì)出現(xiàn)混亂和搓排的情況而且工作量相當(dāng)大。我們通過(guò)對(duì)1000份規(guī)劃文檔進(jìn)行了查分提取,整體用時(shí)6分鐘,通過(guò)人工驗(yàn)證錯(cuò)誤率為O,最終得到令操作員滿意的結(jié)果。
[0048]本發(fā)明提出了一種基于手機(jī)端分模塊顯示word文檔內(nèi)容自動(dòng)拆分的方法,該方法通過(guò)對(duì)電力規(guī)劃文檔的自動(dòng)拆分提取,并輸出成*.json格式文件導(dǎo)入到手機(jī)端分模塊展示。本發(fā)明利用電力規(guī)劃文檔的特性格式統(tǒng)一。然后對(duì)電力規(guī)劃文檔實(shí)現(xiàn)自動(dòng)的解析并拆分,提取當(dāng)中的圖像并進(jìn)行去白邊的處理。完成json格式文件的導(dǎo)出,并支持快速導(dǎo)入到手機(jī)端應(yīng)用當(dāng)中分模塊展示。本發(fā)明通過(guò)自動(dòng)與精準(zhǔn)的轉(zhuǎn)換并結(jié)合成熟的軟件系統(tǒng),完整的將電力規(guī)劃文檔word格式轉(zhuǎn)換為手機(jī)端應(yīng)用支持的json格式文檔的工作。大大提高了設(shè)計(jì)人員的工作效率,并可推廣到建筑設(shè)計(jì)與電力規(guī)劃等多個(gè)領(lǐng)域。
[0049]以上對(duì)本發(fā)明的實(shí)施例進(jìn)行了詳細(xì)說(shuō)明,但所述內(nèi)容僅為本發(fā)明的較佳實(shí)施例,不能被認(rèn)為用于限定本發(fā)明的實(shí)施范圍。凡依本發(fā)明申請(qǐng)范圍所作的均等變化與改進(jìn)等,均應(yīng)仍歸屬于本發(fā)明的專利涵蓋范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種手機(jī)端分模塊顯示word文檔內(nèi)容的方法,其特征在于:包括以下步驟: 1)通過(guò)Aspose動(dòng)態(tài)鏈接庫(kù)的Aspose.Words讀取并解析word文檔; 2)檢索圖片并導(dǎo)出; 3)檢索表格轉(zhuǎn)換成圖片并導(dǎo)出; 4)通過(guò)OpenCv加載圖片; 5)分標(biāo)題段落拆分word文檔; 6)手機(jī)端導(dǎo)入并展示。2.根據(jù)權(quán)利要求1所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的方法,其特征在于:所述步驟2)通過(guò)c#語(yǔ)言檢索word文檔中的圖片,輸出成bmp格式圖片,到指定文件路徑下。3.根據(jù)權(quán)利要求2所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的方法,其特征在于:所述步驟3)通過(guò)c#語(yǔ)言檢索word文檔中的表格,將表格轉(zhuǎn)輸出成bmp格式圖片,導(dǎo)出到指定文件路徑下。4.根據(jù)權(quán)利要求3所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的方法,其特征在于:所述步驟4)將圖片進(jìn)行灰度圖像轉(zhuǎn)換,使其二值化,去掉圖像中的白邊情況并轉(zhuǎn)存成jpg格式圖像,壓縮圖像的大小。5.根據(jù)權(quán)利要求4所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的方法,其特征在于:所述步驟5)將所有拆分的內(nèi)容轉(zhuǎn)換成json格式,并輸出成json格式文件到指定文件路徑。6.根據(jù)權(quán)利要求5所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的方法,其特征在于:所述步驟6)將經(jīng)過(guò)上述步驟得到的包含多個(gè)jpg格式圖像和json格式的文件通過(guò)手機(jī)端導(dǎo)入,并解析json格式文件,根據(jù)json中的key與value來(lái)分模塊,并加載模塊中的詳細(xì)內(nèi)容。7.一種手機(jī)端分模塊顯示word文檔內(nèi)容的系統(tǒng),其特征在于:包括word文檔解析模塊、圖像轉(zhuǎn)化模塊、圖像切割模塊、輸出模塊、手機(jī)端加載展示模塊,所述word文檔解析模塊用于通過(guò)Aspose.Words讀取并解析word文檔,將所有文字內(nèi)容更加標(biāo)題段落進(jìn)行拆分;所述圖像轉(zhuǎn)化模塊、圖像切割模塊用于抽取文檔中的圖片,檢索表格并轉(zhuǎn)換成圖片;所述輸出模塊用于將所有拆分后內(nèi)容輸出到指定文件路徑;所述手機(jī)端加載展示模塊用于通過(guò)手機(jī)端導(dǎo)入并分模塊展示。8.根據(jù)權(quán)利要求7所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的系統(tǒng),其特征在于:所述圖像轉(zhuǎn)化模塊、圖像切割模塊轉(zhuǎn)換成的圖片為BMP圖片。9.根據(jù)權(quán)利要求7所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的系統(tǒng),其特征在于:所述word文檔解析模塊拆分文字內(nèi)容生成的文件為json文件。10.根據(jù)權(quán)利要求7所述的一種手機(jī)端分模塊顯示word文檔內(nèi)容的系統(tǒng),其特征在于:所述圖像轉(zhuǎn)化模塊鏈接OpenCv,用于將圖片進(jìn)行灰度圖像轉(zhuǎn)換,使其二值化,去掉圖像中的白邊情況并轉(zhuǎn)存成jpg格式圖像,壓縮圖像的大小。
【文檔編號(hào)】G06F17/22GK105975446SQ201610246210
【公開(kāi)日】2016年9月28日
【申請(qǐng)日】2016年4月19日
【發(fā)明人】許磊, 申剛, 周曉帆, 吳亮, 宋峰
【申請(qǐng)人】天津天大求實(shí)電力新技術(shù)股份有限公司