国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信息分割方法及裝置的制造方法_4

      文檔序號(hào):9631525閱讀:來(lái)源:國(guó)知局
      0185]分割子模塊712被配置為根據(jù)預(yù)設(shè)參數(shù)對(duì)獲取子模塊711獲取到的通訊會(huì)話消息集合進(jìn)行分割處理,得到至少兩個(gè)通訊會(huì)話序列。
      [0186]其中,預(yù)設(shè)參數(shù)包括第一時(shí)間間隔、第一預(yù)設(shè)關(guān)鍵詞中的至少一種。
      [0187]本實(shí)施例中,分割子模塊712通過(guò)預(yù)設(shè)參數(shù)對(duì)通訊會(huì)話消息集合進(jìn)行分割處理,從而得到多個(gè)通訊會(huì)話序列,使得后續(xù)對(duì)通訊會(huì)話序列進(jìn)行場(chǎng)景分割時(shí),能夠降低對(duì)大量消息進(jìn)行分割的復(fù)雜度,且能夠避免分割后的每個(gè)場(chǎng)景會(huì)話中語(yǔ)料稀疏的情況。
      [0188]在一個(gè)實(shí)施例中,預(yù)設(shè)參數(shù)包括第一時(shí)間間隔、第一預(yù)設(shè)關(guān)鍵詞中的至少一種。
      [0189]在一個(gè)實(shí)施例中,分割子模塊712被配置為當(dāng)預(yù)設(shè)參數(shù)包括第一時(shí)間間隔時(shí),判斷通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔是否等于或大于預(yù)設(shè)時(shí)間間隔;當(dāng)通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔時(shí),將相鄰兩個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中。
      [0190]例如,第一時(shí)間間隔設(shè)置為1天,則當(dāng)相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于1天時(shí),分割子模塊712將該相鄰兩個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中,否則,分割子模塊712將該相鄰兩個(gè)消息分割至相同的通訊會(huì)話序列中。
      [0191]該實(shí)施例中,對(duì)于第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔的相鄰兩個(gè)消息,分割子模塊712能夠?qū)⑦@兩個(gè)相鄰消息分割至兩個(gè)不同的通訊會(huì)話序列中,從而降低對(duì)通訊會(huì)話序列中大量消息進(jìn)行分割的復(fù)雜度,且能夠避免分割后的每個(gè)場(chǎng)景會(huì)話中語(yǔ)料稀疏的情況。
      [0192]在一個(gè)實(shí)施例中,分割子模塊712被配置為當(dāng)預(yù)設(shè)參數(shù)包括第一預(yù)設(shè)關(guān)鍵詞時(shí),判斷通訊會(huì)話消息集合中的消息中是否包含第一預(yù)設(shè)關(guān)鍵詞,第一預(yù)設(shè)關(guān)鍵詞包括第一開(kāi)始關(guān)鍵詞、第一結(jié)束關(guān)鍵詞中的至少一種;當(dāng)通訊會(huì)話消息集合中的消息中包括第一開(kāi)始關(guān)鍵詞時(shí),將消息和與其相鄰的前一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中;當(dāng)通訊會(huì)話消息集合中的消息中包括第一結(jié)束關(guān)鍵詞時(shí),將消息和與其相鄰的后一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中。
      [0193]其中,第一開(kāi)始關(guān)鍵詞如“在么”、“你好”等;第一結(jié)束關(guān)鍵詞如“再見(jiàn)”、“拜拜”、“待會(huì)兒見(jiàn)”等。
      [0194]該實(shí)施例中,分割子模塊712能夠?qū)谝活A(yù)設(shè)關(guān)鍵詞的消息與其之前或之后的消息分割至兩個(gè)不同的通訊會(huì)話序列中,從而降低對(duì)通訊會(huì)話序列中大量消息進(jìn)行分割的復(fù)雜度,且能夠避免分割后的每個(gè)場(chǎng)景會(huì)話中語(yǔ)料稀疏的情況。
      [0195]此外,分割子模塊712還可結(jié)合上述兩個(gè)預(yù)設(shè)參數(shù)來(lái)對(duì)通訊會(huì)話消息集合進(jìn)行分割處理,進(jìn)而得到至少兩個(gè)通訊會(huì)話序列。
      [0196]在一個(gè)實(shí)施例中,分割子模塊712還被配置為當(dāng)通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔時(shí),判斷通訊會(huì)話消息集合中的消息中是否包含第一預(yù)設(shè)關(guān)鍵詞,第一預(yù)設(shè)關(guān)鍵詞包括第一開(kāi)始關(guān)鍵詞、第一結(jié)束關(guān)鍵詞中的至少一種;當(dāng)通訊會(huì)話消息集合中的消息中包括第一開(kāi)始關(guān)鍵詞時(shí),將消息和與其相鄰的前一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中;當(dāng)通訊會(huì)話消息集合中的消息中包括第一結(jié)束關(guān)鍵詞時(shí),將消息和與其相鄰的后一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中。
      [0197]在一個(gè)實(shí)施例中,還可設(shè)置兩個(gè)預(yù)設(shè)參數(shù)各自對(duì)應(yīng)的權(quán)重,分割子模塊712根據(jù)預(yù)設(shè)參數(shù)各自對(duì)應(yīng)的權(quán)重來(lái)計(jì)算消息與其相鄰的消息劃分至兩個(gè)不同的通訊會(huì)話序列中的概率,再根據(jù)預(yù)設(shè)概率值來(lái)判斷是否將消息與其相鄰的消息劃分至兩個(gè)不同的通訊會(huì)話序列中。例如,第一時(shí)間間隔對(duì)應(yīng)的權(quán)重為60%,第一預(yù)設(shè)關(guān)鍵詞對(duì)應(yīng)的權(quán)重為40%,預(yù)設(shè)概率值為80%,如果某個(gè)消息和與其相鄰的前一個(gè)消息之間的第一時(shí)間間隔大于預(yù)設(shè)時(shí)間間隔,且該消息中包含第一開(kāi)始關(guān)鍵詞,則根據(jù)第一時(shí)間間隔和第一預(yù)設(shè)關(guān)鍵詞各自對(duì)應(yīng)的權(quán)重計(jì)算出將該消息和與其相鄰的前一個(gè)消息劃分至兩個(gè)不同的通訊會(huì)話序列的概率,當(dāng)計(jì)算出的概率達(dá)到80%時(shí),即可確定將該消息和與其相鄰的前一個(gè)消息劃分至兩個(gè)不同的通訊會(huì)話序列。
      [0198]在一個(gè)實(shí)施例中,第一確定模塊72確定的特征包括以下特征中的至少一種:
      [0199]消息中包含第二預(yù)設(shè)關(guān)鍵詞,第二預(yù)設(shè)關(guān)鍵詞包括第二開(kāi)始關(guān)鍵詞、第二結(jié)束關(guān)鍵詞中的至少一種;
      [0200]相鄰的消息之間的第二時(shí)間間隔;
      [0201]相鄰的消息具有相同來(lái)源;
      [0202]相鄰的消息中包含相同的屬于預(yù)設(shè)詞性的詞;
      [0203]消息中包含的屬于預(yù)設(shè)詞性的詞;
      [0204]消息的開(kāi)始詞;
      [0205]消息的結(jié)束詞。
      [0206]在一個(gè)實(shí)施例中,場(chǎng)景標(biāo)注信息包括開(kāi)始會(huì)話場(chǎng)景、中間會(huì)話場(chǎng)景、結(jié)束會(huì)話場(chǎng)景和無(wú)關(guān)會(huì)話場(chǎng)景中的至少一種。
      [0207]在一個(gè)實(shí)施例中,如圖9所示,上述裝置還包括第二獲取模塊75、第三確定模塊76、第四確定模塊77和生成模塊78 ;其中:
      [0208]第二獲取模塊75被配置為獲取至少兩個(gè)樣本通訊會(huì)話序列。
      [0209]第二獲取模塊75獲取樣本通訊會(huì)話序列的方法如下:
      [0210]首先,獲取至少兩個(gè)樣本通訊會(huì)話消息集合。例如,獲取終端中用戶在某即時(shí)通訊軟件中的所有消息集合。
      [0211]其次,根據(jù)預(yù)設(shè)參數(shù)對(duì)每一個(gè)樣本通訊會(huì)話消息集合進(jìn)行分割處理,得到至少兩個(gè)樣本通訊會(huì)話序列。其中,預(yù)設(shè)參數(shù)包括第一時(shí)間間隔、第一開(kāi)始關(guān)鍵詞、第一結(jié)束關(guān)鍵詞中的至少一種。第一開(kāi)始關(guān)鍵詞如“在么”、“你好”等;第一結(jié)束關(guān)鍵詞如“再見(jiàn)”、“拜拜”、“待會(huì)兒見(jiàn)”等。如果兩個(gè)相鄰的消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔,則將這兩個(gè)相鄰的消息分割至兩個(gè)不同的樣本通訊會(huì)話序列中,如果某一個(gè)消息中包含第一開(kāi)始關(guān)鍵詞,則將該消息和與其相鄰的前一個(gè)消息分割至兩個(gè)不同的樣本通訊會(huì)話序列中,如果某一個(gè)消息中包含第一結(jié)束關(guān)鍵詞,則將該消息和與其相鄰的后一個(gè)消息分割至兩個(gè)不同的樣本通訊會(huì)話序列中。
      [0212]第二獲取模塊75根據(jù)預(yù)設(shè)參數(shù)對(duì)每一個(gè)樣本通訊會(huì)話消息集合進(jìn)行分割處理時(shí),可以僅根據(jù)第一時(shí)間間隔、第一開(kāi)始關(guān)鍵詞、第一結(jié)束關(guān)鍵詞中的一種預(yù)設(shè)參數(shù)進(jìn)行分割,也可以根據(jù)其中的兩個(gè)或者三個(gè)預(yù)設(shè)參數(shù)的組合進(jìn)行分割。
      [0213]第三確定模塊76被配置為根據(jù)預(yù)設(shè)特征集合確定第二獲取模塊75獲取的至少兩個(gè)樣本通訊會(huì)話序列的特征。
      [0214]其中,預(yù)設(shè)特征集合包括以下特征:消息中包含第二開(kāi)始關(guān)鍵詞、包含第二結(jié)束關(guān)鍵詞、相鄰的消息之間的第二時(shí)間間隔、相鄰的消息具有相同來(lái)源、消息中包含的屬于預(yù)設(shè)詞性的詞、消息的開(kāi)始詞、消息的結(jié)束詞等。由于該步驟之前,已使用預(yù)設(shè)參數(shù)對(duì)樣本通訊會(huì)話消息集合進(jìn)行分割,因此,第二時(shí)間間隔可設(shè)置為比第一時(shí)間間隔較小。
      [0215]第四確定模塊77被配置為確定第二獲取模塊75獲取的至少兩個(gè)樣本通訊會(huì)話序列的場(chǎng)景標(biāo)注信息。
      [0216]為使每個(gè)消息的場(chǎng)景標(biāo)注信息標(biāo)注準(zhǔn)確,該步驟可使用人工確定的方式執(zhí)行。其中,場(chǎng)景標(biāo)注信息包括開(kāi)始會(huì)話場(chǎng)景、中間會(huì)話場(chǎng)景、結(jié)束會(huì)話場(chǎng)景和無(wú)關(guān)會(huì)話場(chǎng)景中的至少一種。每一個(gè)消息對(duì)應(yīng)有各自的場(chǎng)景標(biāo)注信息。
      [0217]生成模塊78被配置為根據(jù)第三確定模塊76確定的至少兩個(gè)樣本通訊會(huì)話序列的特征及及第四確定模塊77確定的至少兩個(gè)樣本通訊會(huì)話序列的場(chǎng)景標(biāo)注信息進(jìn)行模型訓(xùn)練,生成預(yù)設(shè)模型。
      [0218]在一個(gè)實(shí)施例中,預(yù)設(shè)模型為預(yù)設(shè)CRF (condit1nal random fields,條件隨機(jī)域)模型。
      [0219]由于樣本通訊會(huì)話序列所包括的消息可能僅有一個(gè)特征,也可能有多個(gè)特征,因此,在生成的預(yù)設(shè)CRF模型中,包括具有一個(gè)或多個(gè)特征的消息分別屬于每一種場(chǎng)景標(biāo)注信息的概率。
      [0220]例如,在樣本通訊會(huì)話序列中,包含第二開(kāi)始關(guān)鍵詞的所有消息中,屬于開(kāi)始會(huì)話場(chǎng)景的消息有80%,屬于中間會(huì)話場(chǎng)景的消息有10%,屬于無(wú)關(guān)會(huì)話場(chǎng)景的消息有8%,屬于結(jié)束會(huì)話場(chǎng)景的消息有2 %,那么,在預(yù)設(shè)CRF模型中,包含第二開(kāi)始關(guān)鍵詞的消息屬于開(kāi)始會(huì)話場(chǎng)景的概率為80%,屬于中間會(huì)話場(chǎng)景的概率為10%,屬于無(wú)關(guān)會(huì)話場(chǎng)景的概率為8%,屬于結(jié)束會(huì)話場(chǎng)景的概率為2%。
      [0221]再例如,在樣本通訊會(huì)話序列中,對(duì)于既與其相鄰的消息有相同來(lái)源、又包含預(yù)設(shè)動(dòng)詞的所有消息中,屬于開(kāi)始會(huì)話場(chǎng)景的消息有20%,屬于中間會(huì)話場(chǎng)景的消息有70%,屬于無(wú)關(guān)會(huì)話場(chǎng)景的消息有4%,屬于結(jié)束會(huì)話場(chǎng)景的消息有6%,那么,在預(yù)設(shè)CRF模型中,既與其相鄰的消息有相同來(lái)源、又包含預(yù)設(shè)動(dòng)詞的消息屬于開(kāi)始會(huì)話場(chǎng)景的概率為20%,屬于中間會(huì)話場(chǎng)景的概率為70%,屬于無(wú)關(guān)會(huì)話場(chǎng)景的概率為4%,屬于結(jié)束會(huì)話場(chǎng)景的概率為6%。
      [0222]可見(jiàn),在生成的預(yù)設(shè)CRF模型中,包括具有每一個(gè)特征的消息分別屬于哪一種場(chǎng)景標(biāo)注信息的概率,還包括具有多個(gè)特征的消息分別屬于每一種場(chǎng)景標(biāo)注信息的概率。
      [0223]因此,第一確定子模塊731還被配置為根據(jù)預(yù)設(shè)CRF模型中具有一個(gè)或多個(gè)特征的消息分別屬于每一種場(chǎng)景標(biāo)注信息的概率以及消息的特征,確定該消息分別屬于每一種場(chǎng)景標(biāo)注信息的概率;按照消息分別屬于每一種場(chǎng)景標(biāo)注信息的概率的大小,確定該消息的場(chǎng)景標(biāo)注信息。例如,可將概率值最大的場(chǎng)景標(biāo)注信息確定為該消息的場(chǎng)景標(biāo)注信息。
      [0224]本實(shí)施例中,通過(guò)預(yù)設(shè)CRF模型來(lái)確定每個(gè)消息的場(chǎng)景標(biāo)注信息,使得場(chǎng)景標(biāo)注信息的確定可依賴于預(yù)先訓(xùn)練成的模型,從而使場(chǎng)景標(biāo)注信息的確定更加簡(jiǎn)便準(zhǔn)確。
      [0225]在一個(gè)實(shí)施例中,如圖10所示,上述裝置還包括處理模塊79 ;該處理模塊79被配置為第二確定模塊73根據(jù)通訊會(huì)話序列的特征及預(yù)設(shè)模型,確定通訊會(huì)話序列的場(chǎng)景標(biāo)注信息之前,按照預(yù)設(shè)規(guī)則對(duì)通訊會(huì)話序列進(jìn)行預(yù)設(shè)處理,得到符合預(yù)設(shè)規(guī)則的通訊會(huì)話序列。
      [0226]此時(shí),第二確定模塊73包括第二確定子模塊732 ;該第二確定子模塊732被配置為根據(jù)通訊會(huì)話序列的特征及預(yù)設(shè)模型,確定處理模塊79處理得到的符合預(yù)設(shè)規(guī)則的通訊會(huì)話序列的場(chǎng)景標(biāo)注信息。
      [0227]其中,預(yù)設(shè)規(guī)則與所用的預(yù)設(shè)模型有關(guān)。例如,如果采用上述預(yù)設(shè)CRF模型來(lái)確定每個(gè)消息的場(chǎng)景標(biāo)注信息,則可對(duì)通訊會(huì)話序列進(jìn)行向量化處理,使得終端能夠根據(jù)預(yù)設(shè)CRF模型和通訊會(huì)話序列中每個(gè)消息的特征,確定向量化的通訊會(huì)話序列中每個(gè)消息的場(chǎng)景標(biāo)注信息。
      [0228]本實(shí)施例中,通過(guò)將通訊會(huì)話序列處理為符合預(yù)設(shè)規(guī)則的通訊會(huì)話序列,進(jìn)而確定符合預(yù)設(shè)規(guī)則的通訊會(huì)話序列中每個(gè)消息的場(chǎng)景標(biāo)注信息,使得場(chǎng)景標(biāo)注信息的確定更加準(zhǔn)確快速,從而提高對(duì)通訊會(huì)話序列的分割效率。
      當(dāng)前第4頁(yè)1 2 3 4 5 6 
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1