国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置與流程

      文檔序號:12597500閱讀:197來源:國知局
      一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置與流程

      本申請涉及計算機技術(shù)領(lǐng)域,尤其涉及一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置。



      背景技術(shù):

      在很多應(yīng)用系統(tǒng)的構(gòu)建過程中時,往往需要使用大量數(shù)據(jù)來進行支持,比如針對機器翻譯這種應(yīng)用系統(tǒng),需要采用數(shù)據(jù)驅(qū)動的思想,基于大量不同語言類型的句子進行機器學(xué)習(xí),進而訓(xùn)練、調(diào)優(yōu)翻譯系統(tǒng)。

      數(shù)據(jù)的規(guī)模直接影響到這些數(shù)據(jù)支持類應(yīng)用系統(tǒng)的構(gòu)建和運行效果。一般情況下,數(shù)據(jù)規(guī)模越大,獲取到的信息也就越多,機器學(xué)習(xí)效果也就更好,但是,數(shù)據(jù)規(guī)模的增大會對應(yīng)用系統(tǒng)構(gòu)建的可行性提出挑戰(zhàn):不僅會延長應(yīng)用系統(tǒng)的構(gòu)建周期,還會增加占用的系統(tǒng)資源;以機器翻譯這種應(yīng)用系統(tǒng)為例,當數(shù)據(jù)規(guī)模在百萬量級時,應(yīng)用系統(tǒng)的構(gòu)建周期只有幾個小時,占用的系統(tǒng)資源在百兆量級;但是,當數(shù)據(jù)規(guī)模在千萬量級時,應(yīng)用系統(tǒng)的構(gòu)建周期會達到幾天,占用的系統(tǒng)資源將在萬兆量級。另外,隨著數(shù)據(jù)規(guī)模的增大,引入噪音數(shù)據(jù)的概率也會增加;噪音數(shù)據(jù)會嚴重影響應(yīng)用系統(tǒng)的實施效果。

      因此,當用于構(gòu)建應(yīng)用系統(tǒng)的數(shù)據(jù)的規(guī)模較大時,會增加系統(tǒng)資源的占用,降低應(yīng)用系統(tǒng)的構(gòu)建效率,影響實施效果。



      技術(shù)實現(xiàn)要素:

      本申請實施例提供一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法及裝置,用以解決當用于構(gòu)建應(yīng)用系統(tǒng)的數(shù)據(jù)的規(guī)模較大時,會增加系統(tǒng)資源的占用,降低應(yīng)用系統(tǒng)的構(gòu)建效率,影響實施效果的問題。

      本申請實施例提供一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法,包括:

      根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的屬性信息,將文本數(shù)據(jù)劃分為多個樣本點集合;其中,每個樣本點包含至少一個詞序列;

      針對每一個樣本點集合,從該樣本點集合中選取最少數(shù)目的樣本點,使所述最少數(shù)目的樣本點的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例;

      采用選取的每一個樣本點集合中的樣本點構(gòu)建應(yīng)用系統(tǒng)。

      可選地,所述屬性信息包括樣本點的聚類特征;

      根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的屬性信息,將文本數(shù)據(jù)劃分為多個樣本點集合,包括:

      根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的聚類特征,將具有相同聚類特征的樣本點劃分為同一個樣本點集合。

      可選地,所述屬性信息包括樣本點的前綴詞序列和聚類特征;

      根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的屬性信息,將文本數(shù)據(jù)劃分為多個樣本點集合,包括:

      根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的前綴詞序列,將文本數(shù)據(jù)劃分為多個第一樣本點集合,使每個第一樣本點集合內(nèi)的樣本點數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值;

      針對劃分后的每個第一樣本點集合,根據(jù)該第一樣本點集合內(nèi)的各樣本點的聚類特征,將該第一樣本點集合劃分為多個第二樣本點集合,將劃分后的第二樣本點集合作為從中選取樣本點的樣本點集合;其中,每個第二樣本點集合中的各樣本點具有相同的聚類特征。

      可選地,根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的前綴詞序列,將文本數(shù)據(jù)劃分為多個第一樣本點集合,包括:

      按照前綴詞序列的詞數(shù)量由小到大的順序,對所述文本數(shù)據(jù)中的各樣本點 逐次劃分,直到劃分后的每個第一樣本點集合內(nèi)的樣本點數(shù)目小于第一設(shè)定閾值;

      若在第一次劃分后,存在至少一個第一樣本點集合內(nèi)的樣本點數(shù)目小于第二設(shè)定閾值,則將所述至少一個第一樣本點集合進行合并,或?qū)⑺鲋辽僖粋€第一樣本點集合與其它第一樣本點集合進行合并,以使合并后的第一樣本點集合內(nèi)的樣本點數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。

      可選地,針對每一個樣本點集合,從該樣本點集合中選取最少數(shù)目的樣本點,包括:

      從該樣本點集合中未被選取的樣本點中,選取包含該樣本點集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點,并將選取的樣本點所包含的詞序列從該樣本點集合需要覆蓋的剩余詞序列中刪除;

      重復(fù)上述步驟,直到選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

      可選地,針對每一個樣本點集合,根據(jù)以下步驟確定該樣本點集合需要覆蓋的詞序列:

      從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點集合中選取的樣本點所包含的詞序列,得到剩余需要覆蓋的詞序列;

      將該樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該樣本點集合需要覆蓋的詞序列。

      可選地,針對每一個樣本點集合,從該樣本點集合中選取所述最少數(shù)目的樣本點,還包括:

      若該樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集為空集,則從該樣本點集合中隨機選取一個樣本點作為從該樣本點集合選取的所述最少數(shù)目的樣本點。

      可選地,根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列:

      從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個不同的詞序列;

      從提取的詞序列中過濾掉滿足至少一個預(yù)設(shè)的過濾條件的詞序列,將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。

      可選地,所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種:

      在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值;

      包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值;

      包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。

      本申請實施例提供一種基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建裝置,包括:

      劃分模塊,用于根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的屬性信息,將文本數(shù)據(jù)劃分為多個樣本點集合;其中,每個樣本點包含至少一個詞序列;

      選取模塊,用于針對每一個樣本點集合,從該樣本點集合中選取最少數(shù)目的樣本點,使所述最少數(shù)目的樣本點的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例;

      構(gòu)建模塊,用于采用所述選取模塊選取的每一個樣本點集合中的樣本點構(gòu)建應(yīng)用系統(tǒng)。

      采用本申請實施例,可以從大規(guī)模海量數(shù)據(jù)中精選出對應(yīng)用系統(tǒng)具有價值的小部分數(shù)據(jù)來構(gòu)建應(yīng)用系統(tǒng),從而可以減少占用的系統(tǒng)資源,提高應(yīng)用系統(tǒng)的構(gòu)建效率,也進而減少了應(yīng)用系統(tǒng)的構(gòu)建成本;同時,由于減少了噪音數(shù)據(jù),從而可以優(yōu)化應(yīng)用系統(tǒng)的實施效果。

      附圖說明

      圖1為本申請實施例一提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法流程圖;

      圖2本申請實施例二提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法流程圖;

      圖3為本申請實施例三的樣本點選取示意圖;

      圖4為本申請實施例三提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法流程圖;

      圖5為基于前綴詞進行文本數(shù)據(jù)粗分的流程示意圖;

      圖6為在得到聚類后的樣本點集合,及獲得應(yīng)用系統(tǒng)需要覆蓋的所有詞序列U_ng后進行樣本點選取的流程示意圖;

      圖7為本申請實施例四提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建裝置結(jié)構(gòu)示意圖。

      具體實施方式

      本申請實施例中,根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的屬性信息,將文本數(shù)據(jù)劃分為多個樣本點集合;針對每一個樣本點集合,從該樣本點集合中選取詞序列覆蓋率高于設(shè)定閾值的最少數(shù)目的樣本點;采用選取的每一個樣本點集合中的樣本點構(gòu)建應(yīng)用系統(tǒng)。采用本申請實施例,可以從大規(guī)模海量數(shù)據(jù)中精選出對應(yīng)用系統(tǒng)具有價值的小部分數(shù)據(jù)來構(gòu)建應(yīng)用系統(tǒng),從而可以減少占用的系統(tǒng)資源,提高應(yīng)用系統(tǒng)的構(gòu)建效率,也進而減少了應(yīng)用系統(tǒng)的構(gòu)建成本;同時,由于減少了噪音數(shù)據(jù),從而可以優(yōu)化應(yīng)用系統(tǒng)的實施效果。

      下面結(jié)合說明書附圖對本申請實施例的實施作進一步詳細描述。

      實施例一

      如圖1所示,為本申請實施例一提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法流程圖,包括以下步驟:

      S101:根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的屬性信息,將文本數(shù)據(jù)劃分為多個樣本點集合;其中,每個樣本點包含至少一個詞序列。

      本申請實施例中,所述樣本點可以是由一系列詞序列組成的句子、短語、段落等。這里的詞序列(N-gram)為連續(xù)的N個詞所構(gòu)成的序列,N的取值可以預(yù)先設(shè)定,比如可以取2、3、4、5等,或者也可以取這些數(shù)字的組合,即詞序列所包含的詞的個數(shù)可以為一種或多種;一個詞所包含的字母或文字個數(shù)等也可以預(yù)先設(shè)定。所述屬性信息可以包括聚類特征,該聚類特征即為數(shù)據(jù)類別特征、比如長句或短句類別、詞序列的詞頻(Termfrequency–inverse document Frequency,TF)、逆向文件頻率(Term Frequency,IDF)等;屬性信息還可以 包括前綴詞序列,即樣本點的前M個詞,M為正整數(shù)。

      在具體實施中,可以直接將具有相同聚類特征(同一樣本點類別的共有特征)的樣本點劃分為同一個樣本點集合;或者,先采用前綴詞序列進行粗分,再進行聚類精分(詳見實施例三的介紹)。執(zhí)行該步驟的目的是為了使選取的樣本點更好地刻畫文本數(shù)據(jù)的信息分布,詳見下述S103之后的描述。

      S102:針對每一個樣本點集合,從該樣本點集合中選取最少數(shù)目的樣本點,使所述最少數(shù)目的樣本點的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例。

      該步驟中,從每個樣本點集合中選取樣本點,選取的樣本點滿足:數(shù)目最少化、且所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例大于設(shè)定閾值。

      S103:采用選取的每一個樣本點集合中的樣本點構(gòu)建應(yīng)用系統(tǒng)。

      本申請實施例中,將文本數(shù)據(jù)劃分為多個樣本點集合后,再從每個樣本點集合中選取詞序列覆蓋率高于設(shè)定閾值的最少數(shù)目的樣本點,可以避免直接在整個文本數(shù)據(jù)中進行最少數(shù)目的樣本點選取,而產(chǎn)生數(shù)據(jù)傾斜的問題。也即,若不進行樣本點集合的劃分,很有可能導(dǎo)致最終選取的樣本點所涵蓋的信息不全面,導(dǎo)致構(gòu)建的應(yīng)用系統(tǒng)的實施效果較差;比如在翻譯系統(tǒng)中,若不進行樣本點集合的劃分,有可能導(dǎo)致最終選取的句子中絕大多數(shù)都為長句,短句很少,而實際上,在翻譯系統(tǒng)中只有實現(xiàn)長短句的平衡,才能達到較優(yōu)的翻譯效果。

      除此之外,本申請實施例在選取最少數(shù)目的樣本點時以每個樣本點集合作為操作單位,對不同樣本點集合進行樣本點選取時可以并行執(zhí)行,從而相比直接在整個文本數(shù)據(jù)中進行最少數(shù)目的樣本點選取的方式,可以大大提高選取效率。

      下面通過幾個具體的實施例,對上述劃分樣本點集合及選取最少數(shù)目的樣本點的過程作進一步介紹。

      實施例二

      在該實施例二中,采用聚類方式進行樣本點集合的劃分;在選取最少數(shù)目的樣本點時,將整個文本數(shù)據(jù)包含的所有不同的詞序列作為應(yīng)用系統(tǒng)需要覆蓋的詞序列。

      如圖2所示,為本申請實施例二提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法流程圖,包括以下步驟:

      S201:根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的聚類特征,將具有相同聚類特征的樣本點劃分為同一個樣本點集合。

      在具體實施過程中,可以提取每個樣本點的聚類特征,比如該特征包括:樣本點所包含的詞序列的詞頻(Termfrequency–inverse document Frequency,TF)、逆向文件頻率(Term Frequency,IDF)等計算值,將具有相同聚類特征的樣本點劃分為同一個樣本點集合,具有不同聚類特征的樣本點劃分到不同的樣本點集合。進行聚類劃分的理想結(jié)果是,每一個樣本點集合中的任一樣本點可以表征該樣本點集合內(nèi)各樣本點的共有信息,只需要在每個樣本點集合內(nèi)隨機選取一個樣本點就可以完成最少數(shù)目的樣本點的選取。

      S202:針對每一個樣本點集合,根據(jù)該樣本點集合需要覆蓋的詞序列,以及該樣本點集合中每個樣本點包含的詞序列,從該樣本點集合中選取詞序列覆蓋率高于設(shè)定閾值的最少數(shù)目的樣本點。

      S203:采用選取的每一個樣本點集合中的樣本點構(gòu)建應(yīng)用系統(tǒng)。

      在具體實施過程中,為了在滿足詞序列覆蓋率的前提下實現(xiàn)數(shù)據(jù)規(guī)模最小化,可以在每次選取樣本點時,選取包含剩余有價值詞序列數(shù)目最多的樣本點,這里的剩余有價值詞序列也即是在該樣本點集合需要覆蓋的所有詞序列中,除已被選取的樣本點所包含的詞序列之外的剩余詞序列。

      具體地,針對任一樣本點集合,選取樣本點的過程可以為:

      從該樣本點集合中未被選取的樣本點中,選取包含該樣本點集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點,并將選取的樣本點所包含的詞序列從該樣本 點集合需要覆蓋的剩余詞序列中刪除;重復(fù)該步驟,直到選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

      在S202中,需要確定每一個樣本點集合需要覆蓋的不同的詞序列;具體確定方式如下:

      方式一,可以將從該樣本點集合中提取出的所有不同的詞序列作為該樣本點集合需要覆蓋的詞序列;

      方式二,可以在從該樣本點集合中提取出的所有不同的詞序列中進一步篩選出部分有價值的詞序列,作為該樣本點集合需要覆蓋的詞序列;這里的有價值的詞序列可以是除以下類型的詞序列之外的詞序列:

      在該樣本點集合中出現(xiàn)的頻次低于設(shè)定閾值的詞序列、包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值的詞序列、包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值的詞序列。

      方式三、除去已在其它樣本點集合中選取的樣本點所包含的詞序列;

      在這種實施方式下,經(jīng)過上述步驟S201的聚類劃分,不同樣本點集合內(nèi)的各樣本點所包含的詞序列大部分是不同的,但仍有可能存在小部分詞序列是重復(fù)的,因此,為了進一步縮小數(shù)據(jù)規(guī)模,可以采用以下優(yōu)選的方式,每一個樣本點集合不需要覆蓋已在其它樣本點集合中選取的樣本點所包含的詞序列。具體地,針對每一個樣本點集合,根據(jù)以下步驟確定該樣本點集合需要覆蓋的詞序列:

      從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點集合中選取的樣本點所包含的詞序列,得到剩余需要覆蓋的詞序列;

      將該樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該樣本點集合需要覆蓋的詞序列。

      這里,應(yīng)用系統(tǒng)需要覆蓋的詞序列可以是所述文本數(shù)據(jù)所包含的所有不同的詞序列;也可以是從所述文本數(shù)據(jù)所包含的所有不同的詞序列中篩選出的部 分詞序列(詳見實施例三的描述)。

      在具體實施中,可以結(jié)合將上述方式二和方式三結(jié)合實施。

      可選地,若該樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集為空集,則從該樣本點集合中隨機選取一個樣本點作為選取的所述最少數(shù)目的樣本點。

      在具體實施過程中,為了保證文本數(shù)據(jù)的信息完整性,可以使每一個樣本點集合中至少有一個樣本點被選取用于構(gòu)建應(yīng)用系統(tǒng)。在這種機制下,當該樣本點集合包含的各個詞序列與所述剩余需要覆蓋的詞序列之間的交集為空集時,從該樣本點集合隨機選取一個樣本點用于構(gòu)建應(yīng)用系統(tǒng)。

      實施例三

      在該實施例三中,采用前綴詞序列以及聚類特征來劃分樣本點集合;在選取最少數(shù)目的樣本點時,先過濾掉低價值的詞序列,再將剩余的詞序列作為應(yīng)用系統(tǒng)需要覆蓋的詞序列。如圖3所示,為本申請實施例三的樣本點選取示意圖。

      如圖4所示,為本申請實施例三提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法流程圖,包括以下步驟:

      S401:根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的前綴詞序列,將文本數(shù)據(jù)劃分為多個第一樣本點集合,使每個第一樣本點集合內(nèi)的樣本點數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值(顯然,這里的第一設(shè)定閾值大于第二設(shè)定閾值)。

      該步驟中,采用前綴詞序列對文本數(shù)據(jù)進行粗分,得到多個符合預(yù)設(shè)的數(shù)據(jù)規(guī)模(樣本點數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值)的第一樣本點集合。每個第一樣本點集合內(nèi)的樣本點可以具有相同的前綴詞序列。用于組成不同的第一樣本點集合的前綴詞序列的詞數(shù)量可以相同,也可以不同;比如,有的第一樣本點集合內(nèi)的各樣本點具有相同的詞數(shù)量為1的前綴詞序列,有的第一樣本點集合內(nèi)的各樣本點具有相同的詞數(shù)量為2的前綴詞序列。

      可選地,為了保證數(shù)據(jù)規(guī)模在預(yù)設(shè)的范圍內(nèi),可以采用以下劃分第一樣本點集合的方式:

      按照前綴詞序列的詞數(shù)量由小到大的順序,對所述文本數(shù)據(jù)中的各樣本點逐次劃分,直到劃分后的每個第一樣本點集合內(nèi)的樣本點數(shù)目小于第一設(shè)定閾值;

      若在第一次劃分后,存在至少一個第一樣本點集合內(nèi)的樣本點數(shù)目小于第二設(shè)定閾值,則將所述至少一個第一樣本點集合進行合并,或?qū)⑺鲋辽僖粋€第一樣本點集合與其它第一樣本點集合進行合并,以使合并后的第一樣本點集合內(nèi)的樣本點數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。

      在具體實施中,可以首先采用較少詞數(shù)量的前綴詞序列對文本數(shù)據(jù)進行劃分,若劃分后的第一樣本點集合內(nèi)的樣本點數(shù)量大于第一設(shè)定閾值,再增加前綴詞序列的詞數(shù)量,對劃分后的第一樣本點集合繼續(xù)進行劃分,如此重復(fù),直到劃分后的每個第一樣本點集合內(nèi)的樣本點數(shù)目小于第一設(shè)定閾值;在這個過程中,若首次劃分的某個第一樣本點集合內(nèi)的樣本點數(shù)量不僅小于第一設(shè)定閾值,還小于第二設(shè)定閾值,則說明首次劃分的該第一樣本點集合的數(shù)據(jù)規(guī)模過小,此時,需要對多個數(shù)據(jù)規(guī)模過小的第一樣本點集合進行合并,或者,將數(shù)據(jù)規(guī)模過小的第一樣本點集合與其它第一樣本點集合集合合并,實現(xiàn)合并后的第一樣本點集合內(nèi)的樣本點數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。如圖5所示,為基于前綴詞進行文本數(shù)據(jù)粗分的流程示意圖,包括:

      S5a:將具有相同前綴詞序列的樣本點劃分為同一個第一樣本點集合;

      S5b:確定每個第一樣本點集合內(nèi)的樣本點數(shù)目;

      S5c:針對劃分后的每個第一樣本點集合,若該第一樣本點集合內(nèi)的樣本點數(shù)目大于第一設(shè)定閾值,則增加前綴詞序列的詞數(shù)量,針對該第一樣本點集合執(zhí)行S5a;

      S5d:針對劃分后的每個第一樣本點集合,若該第一樣本點集合內(nèi)的樣本點數(shù)目小于第二設(shè)定閾值,則將其與其它第一樣本點集合進行合并,使合并后 的第一樣本點集合內(nèi)的樣本點數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值;

      S5e:針對劃分后的每個第一樣本點集合,若該第一樣本點集合內(nèi)的樣本點數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值,則將該第一樣本點集合作為最終粗分后的樣本點集合。

      S402:針對劃分后的每個第一樣本點集合,根據(jù)該第一樣本點集合內(nèi)的各樣本點的聚類特征,將該第一樣本點集合劃分為多個第二樣本點集合;其中,每個第二樣本點集合中的各樣本點具有相同的聚類特征。

      該步驟在S401的基礎(chǔ)上進行聚類精分,將每一個第一樣本點集合劃分為多個第二樣本點集合。具體地,將每一個第一樣本點集合內(nèi)具有相同聚類特征的樣本點劃分為同一個第二樣本點集合,將具有不同聚類特征的樣本點劃分到不同的第二樣本點集合。進行聚類劃分的理想的結(jié)果是,每一個第二樣本點集合中的任一樣本點可以表征該第二樣本點集合內(nèi)各樣本點的共有信息,只需要在每個第二樣本點集合內(nèi)隨機選取一個樣本點就可以完成最少數(shù)目的樣本點的選取。

      在這種實施方式下,針對不同的第一樣本點集合進行聚類精分時可以并行執(zhí)行,因此,這種先采用前綴詞進行數(shù)據(jù)粗分,再進行聚類精分的實施方式,相比直接進行聚類劃分的方式,可以提高劃分效率。

      S403:從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個不同的詞序列;從提取的詞序列中過濾掉滿足至少一個預(yù)設(shè)的過濾條件的詞序列,將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。

      在具體實施過程中,不同的詞序列的信息價值是不同的,有的詞序列本身可能是沒有信息價值或者信息價值很少的詞序列,這種詞序列的存在有可能會導(dǎo)致無法大規(guī)模降低所選取的樣本點的規(guī)模,因此,在具體實施中,可以首先將這類低價值的詞序列過濾掉。

      可選地,所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種:

      在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值;

      包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值;

      包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。

      在上述過濾條件中,在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值(可以根據(jù)實際需要設(shè)定,比如為2)的詞序列一般是應(yīng)用價值很小的詞序列,可以將這類詞序列過濾掉。包含的重復(fù)詞(比如“我我我”)或單字母詞(比如“x”、“t”)大于第一設(shè)定數(shù)量閾值的詞序列,以及包含的高頻詞(比如“的”,在具體實施中可以預(yù)先定義哪些詞為高頻詞)大于第二設(shè)定數(shù)量閾值的詞序列,所包含的無價值的數(shù)據(jù)量過多,可以將這部分詞序列過濾掉,以減少數(shù)據(jù)規(guī)模。

      S404:針對每一個第二樣本點集合,從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它第二樣本點集合中選取的樣本點所包含的詞序列,得到剩余需要覆蓋的詞序列。

      在具體實施過程中,可以在完成一個第二樣本點集合的樣本點選取后,即更新剩余需要覆蓋的不同詞序列。詳見下述流程圖6及相關(guān)描述。

      S405:判斷將該第二樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集是否為空集,若為空集則進入S406,否則進入S407;

      S406:從該第二樣本點集合中隨機選取一個樣本點。

      這里,為了盡量保證選取的樣本點所覆蓋信息的全面性,可以保證每個第二樣本點集合中至少有一個樣本點被選取,以實現(xiàn)每一個聚類后的集合中都至少有一個樣本點來體現(xiàn)這一類樣本點的共有信息。

      S407:將該第二樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該第二樣本點集合需要覆蓋的詞序列。

      這里,從應(yīng)用系統(tǒng)需要覆蓋的不同詞序列中除去已在其它第二樣本點集合中選取的樣本點所包含的不同詞序列后,所剩余的需要覆蓋的不同詞序列即為未選取樣本點的所有第二樣本點集合需要覆蓋的詞序列。任一第二樣本點集合包含的各個不同的詞序列與所述剩余需要覆蓋的不同詞序列的交集即為該第 二樣本點集合需要覆蓋的詞序列。

      S408:針對每一個第二樣本點集合,根據(jù)該第二樣本點集合需要覆蓋的詞序列,以及該第二樣本點集合中每個樣本點包含的詞序列,從該第二樣本點集合中選取詞序列覆蓋率高于設(shè)定閾值的最少數(shù)目的樣本點。

      具體地,可以從每一個樣本點集合未被選取的樣本點中,選取包含該樣本點集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點,并將選取的樣本點從該樣本點集合需要覆蓋的剩余詞序列中刪除;重復(fù)該步驟,直到選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

      S409:采用選取的每一個第二樣本點集合中的樣本點構(gòu)建應(yīng)用系統(tǒng)。

      如圖6所示,為在得到聚類后的樣本點集合,及獲得應(yīng)用系統(tǒng)需要覆蓋的所有詞序列U_ng后進行樣本點選取的流程示意圖;假設(shè)選取的所有樣本點組成的集合為A,其包含的所有詞序列為A_ng,本申請實施例的最終目的是使得詞序列覆蓋率CoverRate_ng=|A_ng|/|U_ng|大于設(shè)定閾值,且樣本點數(shù)目|A|最少;其中|A_ng|表示A_ng中的詞序列數(shù)量,|U_ng|表示U_ng中的詞序列數(shù)量。選取流程包括:

      S6a:選取一個未進行樣本點選取的聚類后的樣本點集合;

      S6b:提取該樣本點集合內(nèi)的所有不同的詞序列C_ng;

      S6c:將提取的該樣本點集合內(nèi)的詞序列,與剩余需要覆蓋的詞序列U'_ng取交集,得到C'_ng;這里,剩余需要覆蓋的詞序列U'_ng為應(yīng)用系統(tǒng)需要覆蓋的所有不同的詞序列U_ng除去已完成樣本點選取的樣本點集合所覆蓋的詞序列后剩余的詞序列;

      S6d:判斷所述交集C'_ng是否為空集;若為空集則進入S6e,否則進入S6f;

      S6e:從該樣本點集合內(nèi)隨機選取一個樣本點,并進入S6j;

      S6f:從該樣本點集合中未被選取的樣本點中,選取包含C'_ng中的詞序列 數(shù)目最多的樣本點;

      S6g:將選取的樣本點所包含的詞序列從C'_ng中刪除;

      S6h:判斷選取的樣本點的詞序列覆蓋率(從該樣本點集合中選取的樣本點所包含的不同詞序列的數(shù)量/所述交集中的詞序列數(shù)量|C′_ng|)是否超過設(shè)定閾值;若是,則進入S6i,否則,返回S6f;

      S6i:更新U'_ng;

      S6j:判斷所有的樣本點集合是否都已完成選取,若是,則結(jié)束選取操作,否則返回S6a。

      這里,也可以先執(zhí)行S6j,在確定還有樣本點集合未完成選取后,再執(zhí)行S6i,更新U'_ng,并返回S6a。

      基于同一發(fā)明構(gòu)思,本申請實施例中還提供了一種與基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法對應(yīng)的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建裝置,由于該裝置解決問題的原理與本申請實施例基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建方法相似,因此該裝置的實施可以參見方法的實施,重復(fù)之處不再贅述。

      實施例四

      如圖7所示,為本申請實施例四提供的基于數(shù)據(jù)支持的應(yīng)用系統(tǒng)構(gòu)建裝置結(jié)構(gòu)示意圖,包括:

      劃分模塊71,用于根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的屬性信息,將文本數(shù)據(jù)劃分為多個樣本點集合;其中,每個樣本點包含至少一個詞序列;

      選取模塊72,用于針對每一個樣本點集合,從該樣本點集合中選取最少數(shù)目的樣本點,使所述最少數(shù)目的樣本點的詞序列覆蓋率高于設(shè)定閾值;其中,所述詞序列覆蓋率為選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例;

      構(gòu)建模塊73,用于采用選取模塊72選取的每一個樣本點集合中的樣本點構(gòu)建應(yīng)用系統(tǒng)。

      可選地,所述屬性信息包括樣本點的聚類特征;

      所述劃分模塊71具體用于:

      根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的聚類特征,將具有相同聚類特征的樣本點劃分為同一個樣本點集合。

      可選地,所述屬性信息包括樣本點的前綴詞序列和聚類特征;

      所述劃分模塊71具體用于:

      根據(jù)用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中各樣本點的前綴詞序列,將文本數(shù)據(jù)劃分為多個第一樣本點集合,使每個第一樣本點集合內(nèi)的樣本點數(shù)目小于第一設(shè)定閾值、且大于第二設(shè)定閾值;針對劃分后的每個第一樣本點集合,根據(jù)該第一樣本點集合內(nèi)的各樣本點的聚類特征,將該第一樣本點集合劃分為多個第二樣本點集合,將劃分后的第二樣本點集合作為從中選取樣本點的樣本點集合;其中,每個第二樣本點集合中的各樣本點具有相同的聚類特征。

      可選地,所述劃分模塊71具體用于:

      按照前綴詞序列的詞數(shù)量由小到大的順序,對所述文本數(shù)據(jù)中的各樣本點逐次劃分,直到劃分后的每個第一樣本點集合內(nèi)的樣本點數(shù)目小于第一設(shè)定閾值;若在第一次劃分后,存在至少一個第一樣本點集合內(nèi)的樣本點數(shù)目小于第二設(shè)定閾值,則將所述至少一個第一樣本點集合進行合并,或?qū)⑺鲋辽僖粋€第一樣本點集合與其它第一樣本點集合進行合并,以使合并后的第一樣本點集合內(nèi)的樣本點數(shù)目大于所述第二設(shè)定閾值、且小于所述第一設(shè)定閾值。

      可選地,所述選取模塊72具體用于:

      根據(jù)該樣本點集合需要覆蓋的詞序列,以及該樣本點集合中每個樣本點包含的詞序列,從該樣本點集合中選取詞序列覆蓋率高于設(shè)定閾值的最少數(shù)目的樣本點。

      可選地,所述選取模塊72具體用于:

      從該樣本點集合中未被選取的樣本點中,選取包含該樣本點集合需要覆蓋的剩余詞序列數(shù)目最多的樣本點,并將選取的樣本點所包含的詞序列從該樣本 點集合需要覆蓋的剩余詞序列中刪除;重復(fù)該步驟,直到選取的樣本點所包含的不同詞序列的數(shù)目與該樣本點集合需要覆蓋的不同詞序列的數(shù)目的比例超過設(shè)定閾值。

      可選地,針對每一個樣本點集合,所述選取模塊具體用于根據(jù)以下步驟確定該樣本點集合需要覆蓋的詞序列:

      從所述應(yīng)用系統(tǒng)需要覆蓋的詞序列中除去已在其它樣本點集合中選取的樣本點所包含的詞序列,得到剩余需要覆蓋的詞序列;將該樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集,確定為該樣本點集合需要覆蓋的詞序列。

      可選地,所述選取模塊72還用于,

      針對每一個樣本點集合,若該樣本點集合包含的各個詞序列與得到的所述剩余需要覆蓋的詞序列的交集為空集,則從該樣本點集合中隨機選取一個樣本點作為從該樣本點集合選取的所述最少數(shù)目的樣本點。

      可選地,所述選取模塊72具體用于根據(jù)以下步驟確定所述應(yīng)用系統(tǒng)需要覆蓋的詞序列:

      從用于構(gòu)建應(yīng)用系統(tǒng)的文本數(shù)據(jù)中提取各個不同的詞序列;從提取的詞序列中過濾掉滿足至少一個預(yù)設(shè)的過濾條件的詞序列,將過濾后的詞序列確定為所述應(yīng)用系統(tǒng)需要覆蓋的詞序列。

      可選地,所述預(yù)設(shè)的過濾條件包括以下條件中的一種或多種:

      在所述文本數(shù)據(jù)中出現(xiàn)的頻次低于設(shè)定閾值;

      包含的重復(fù)詞或單字母詞大于第一設(shè)定數(shù)量閾值;

      包含的預(yù)設(shè)的高頻詞大于第二設(shè)定數(shù)量閾值。

      本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、 CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。

      本申請是參照根據(jù)本申請實施例的方法、裝置(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

      這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

      這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

      盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。

      顯然,本領(lǐng)域的技術(shù)人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1