本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是涉及一種用于大數(shù)據(jù)清洗的異常檢測和消除的方法。
背景技術(shù):
隨著計算機技術(shù)和通訊技術(shù)的飛速發(fā)展,人們可以獲得越來越多的數(shù)字化信息,但同時也需要投入更多的時間對數(shù)字化信息進(jìn)行組織和整理。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程。在數(shù)據(jù)挖掘過程中,根據(jù)數(shù)據(jù)挖掘目的或?qū)嶋H業(yè)務(wù)需求,需要使用不同的數(shù)據(jù)挖掘算法。在數(shù)據(jù)挖掘平臺設(shè)計初期,為提高數(shù)據(jù)挖掘平臺的處理能力,使數(shù)據(jù)挖掘平臺滿足各種數(shù)據(jù)挖掘目的,常常需要在數(shù)據(jù)挖掘平臺中引入多個固定的數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘是一個減少數(shù)據(jù)錯誤和不一致性的過程,主要任務(wù)是檢測并刪除或改正將轉(zhuǎn)入數(shù)據(jù)庫的臟數(shù)據(jù)。另外,對這些臟數(shù)據(jù)進(jìn)行分析歸類,并反饋給業(yè)務(wù)系統(tǒng),也能幫助業(yè)務(wù)系統(tǒng)更好的定位代碼的缺陷,改進(jìn)業(yè)務(wù)流程,從而提高數(shù)據(jù)的質(zhì)量。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于提供一種用于大數(shù)據(jù)清洗的異常檢測和消除的方法,兼具語音識別回應(yīng)、文本抓取優(yōu)化、多形態(tài)數(shù)據(jù)跨庫比對互通這樣的功能,是一款集成多格式辨別、高速自動化處理、多樣數(shù)據(jù)適配功能的智能挖掘方式。
為解決上述技術(shù)問題,本發(fā)明的技術(shù)解決方案是:
一種用于大數(shù)據(jù)清洗的異常檢測和消除的方法,具體如下:
首先構(gòu)建用于大數(shù)據(jù)分析的數(shù)據(jù)挖掘平臺,其包括配置給會員的連接在電信網(wǎng)絡(luò)上的手機、智能終端和電信網(wǎng)絡(luò)服務(wù)器,其中手機、智能終端和電信網(wǎng)絡(luò)服務(wù)器之間通過電信網(wǎng)絡(luò)建立通信連接,而互聯(lián)網(wǎng)通過接入網(wǎng)關(guān)或升級的接入側(cè)設(shè)備與所述電信網(wǎng)絡(luò)連接,互聯(lián)網(wǎng)內(nèi)包含有郵件服務(wù)器,前臺處理終端和后臺服務(wù)器連接在所述電信網(wǎng)絡(luò)或者互聯(lián)網(wǎng)上,另外所述前臺處理終端內(nèi)包括有智能語音識別模塊、ETL模塊、TTS語音合成模塊、模擬機器人控制模塊、郵箱域名邏輯判斷及檢測模塊、會員信息和機器人模擬發(fā)送系統(tǒng),所述會員信息包括會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述后臺服務(wù)器上具有包含地理信息的數(shù)據(jù)庫、郵箱域名數(shù)據(jù)庫、郵編數(shù)據(jù)庫、所有會員的會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述地理信息包括有地理屬性的詞庫、核心地理信息、以及過去出現(xiàn)過的反映錯誤地理信息的詞條,另外地理信息還包括過去出現(xiàn)過的反映錯誤地理信息的詞條所對應(yīng)的正確的地址、在表達(dá)同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系,過去出現(xiàn)過的錯誤的郵件地址;所述郵箱域名數(shù)據(jù)庫中包括有過去出現(xiàn)過的錯誤的郵件地址和與之對應(yīng)的正確的郵件地址;
當(dāng)會員通過智能終端對前臺處理終端發(fā)送信息來時,所述前臺處理終端自動運行ETL模塊來提取有效信息,若提取出的有效信息中包括有地址信息,就啟動模擬機器人控制模塊進(jìn)行地址標(biāo)準(zhǔn)化處理和地址清洗,所述地址標(biāo)準(zhǔn)化處理就是把地址信息用地址信息中的地址所在省、市、區(qū)或者縣、街道以及門牌號來表示,所述地址清洗就是把標(biāo)準(zhǔn)化處理的地址信息發(fā)送到所述后臺服務(wù)器中,若標(biāo)準(zhǔn)化處理的地址信息中帶有同義數(shù)據(jù),后臺服務(wù)器就通過在表達(dá)同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系中判定出同義數(shù)據(jù),若標(biāo)準(zhǔn)化處理的地址信息和包含地理信息的數(shù)據(jù)庫中的過去出現(xiàn)過的反映錯誤地理信息的詞條存在一致的,就把標(biāo)準(zhǔn)化處理的地址信息糾正為與之一致的過去出現(xiàn)過的反映錯誤地理信息的詞條所對應(yīng)的正確的地址,另外還結(jié)合郵編數(shù)據(jù)庫把標(biāo)準(zhǔn)化處理的地址信息對應(yīng)的郵編查詢出來,并把標(biāo)準(zhǔn)化處理的地址信息及其對應(yīng)的郵編返回前臺處理終端;
若提取出的有效信息中包括有郵件地址,就用郵箱域名邏輯判斷及檢測模塊進(jìn)行對郵件地址的格式進(jìn)行檢測,如果郵件地址存在格式錯誤,就改正成正確格式,然后啟動機器人模擬發(fā)送系統(tǒng)把郵件地址發(fā)送到后臺服務(wù)器中,郵件地址若同郵箱域名數(shù)據(jù)庫中的過去出現(xiàn)過的錯誤的郵件地址有相一致的,就替換成和與之該過去出現(xiàn)過的錯誤的郵件地址對應(yīng)的正確的郵件地址,然后把正確的郵件地址返回前臺處理終端;
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把準(zhǔn)化處理的地址信息發(fā)送到所述后臺服務(wù)器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務(wù)器中,并且還能夠進(jìn)行把準(zhǔn)化處理的地址信息和所有會員的會員通訊地址進(jìn)行對比,如果沒有相匹配的會員通訊地址,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進(jìn)行通訊地址核對;
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把郵箱地址信息發(fā)送到所述后臺服務(wù)器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務(wù)器中,并且還能夠進(jìn)行把郵箱地址信息和所有會員的會員的郵箱域名進(jìn)行對比,如果沒有相匹配的會員的郵箱域名,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進(jìn)行郵箱核對。
所述啟動智能語音交互核對功能來進(jìn)行通訊地址核對就是通過智能語音交互與消費者進(jìn)行確認(rèn),得到正確的通訊地址和郵編,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對會員手機號碼對應(yīng)的手機進(jìn)行測撥,在該手機經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應(yīng)的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務(wù)器中存儲,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡(luò)服務(wù)器發(fā)送到會員手機號碼對應(yīng)的手機中分別進(jìn)行播放和顯示,在會員通過手機進(jìn)行回復(fù)而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進(jìn)行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進(jìn)行播放并經(jīng)由智能語音識別模塊進(jìn)行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的通訊地址和郵編,然后發(fā)送到后臺服務(wù)器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通。
所述啟動智能語音交互核對功能來進(jìn)行通訊地址核對就是通過智能語音交互與消費者進(jìn)行確認(rèn),得到正確的郵箱地址信息,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對會員手機號碼對應(yīng)的手機進(jìn)行測撥,在該手機經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應(yīng)的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務(wù)器中存儲,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡(luò)服務(wù)器發(fā)送到會員手機號碼對應(yīng)的手機中分別進(jìn)行播放和顯示,在會員通過手機進(jìn)行回復(fù)而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進(jìn)行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進(jìn)行播放并經(jīng)由智能語音識別模塊進(jìn)行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的郵箱地址信息,然后發(fā)送到后臺服務(wù)器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通
經(jīng)由本發(fā)明的結(jié)構(gòu),與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
在需要和人進(jìn)行溝通核實數(shù)據(jù)的清洗環(huán)節(jié),運用現(xiàn)在已有的技術(shù)實現(xiàn)人機對話,對人的回答進(jìn)行識別和判定并及時給出答復(fù),同時完成數(shù)據(jù)的校驗和缺陷修復(fù)。將通訊地址出現(xiàn)的種種錯漏問題,高速地自動刪除、歸類、補充,轉(zhuǎn)換之后,最終將輸出一套標(biāo)準(zhǔn)的綠色的數(shù)據(jù)庫。利用方法代替?zhèn)鹘y(tǒng)以人工電話的數(shù)據(jù)清洗方式,顯著提高數(shù)據(jù)清洗工作的效率,同時減少人力成本,從而實現(xiàn)數(shù)據(jù)清洗的高效率低成本。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
用于大數(shù)據(jù)清洗的異常檢測和消除的方法,具體如下:
首先構(gòu)建用于大數(shù)據(jù)分析的數(shù)據(jù)挖掘平臺,其包括配置給會員的連接在電信網(wǎng)絡(luò)上的手機、智能終端和電信網(wǎng)絡(luò)服務(wù)器,其中手機、智能終端和電信網(wǎng)絡(luò)服務(wù)器之間通過電信網(wǎng)絡(luò)建立通信連接,而互聯(lián)網(wǎng)通過接入網(wǎng)關(guān)或升級的接入側(cè)設(shè)備與所述電信網(wǎng)絡(luò)連接,互聯(lián)網(wǎng)內(nèi)包含有郵件服務(wù)器,前臺處理終端和后臺服務(wù)器連接在所述電信網(wǎng)絡(luò)或者互聯(lián)網(wǎng)上,另外所述前臺處理終端內(nèi)包括有智能語音識別模塊、ETL模塊、TTS語音合成模塊、模擬機器人控制模塊、郵箱域名邏輯判斷及檢測模塊、會員信息和機器人模擬發(fā)送系統(tǒng),所述會員信息包括會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述后臺服務(wù)器上具有包含地理信息的數(shù)據(jù)庫、郵箱域名數(shù)據(jù)庫、郵編數(shù)據(jù)庫、所有會員的會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述地理信息包括有地理屬性的詞庫、核心地理信息、以及過去出現(xiàn)過的反映錯誤地理信息的詞條,另外地理信息還包括過去出現(xiàn)過的反映錯誤地理信息的詞條所對應(yīng)的正確的地址、在表達(dá)同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系,過去出現(xiàn)過的錯誤的郵件地址;所述郵箱域名數(shù)據(jù)庫中包括有過去出現(xiàn)過的錯誤的郵件地址和與之對應(yīng)的正確的郵件地址;
當(dāng)會員通過智能終端對前臺處理終端發(fā)送信息來時,所述前臺處理終端自動運行ETL模塊來提取有效信息,若提取出的有效信息中包括有地址信息,就啟動模擬機器人控制模塊進(jìn)行地址標(biāo)準(zhǔn)化處理和地址清洗,所述地址標(biāo)準(zhǔn)化處理就是把地址信息用地址信息中的地址所在省、市、區(qū)或者縣、街道以及門牌號來表示,所述地址清洗就是把標(biāo)準(zhǔn)化處理的地址信息發(fā)送到所述后臺服務(wù)器中,若標(biāo)準(zhǔn)化處理的地址信息中帶有同義數(shù)據(jù),后臺服務(wù)器就通過在表達(dá)同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系中判定出同義數(shù)據(jù),若標(biāo)準(zhǔn)化處理的地址信息和包含地理信息的數(shù)據(jù)庫中的過去出現(xiàn)過的反映錯誤地理信息的詞條存在一致的,就把標(biāo)準(zhǔn)化處理的地址信息糾正為與之一致的過去出現(xiàn)過的反映錯誤地理信息的詞條所對應(yīng)的正確的地址,另外還結(jié)合郵編數(shù)據(jù)庫把標(biāo)準(zhǔn)化處理的地址信息對應(yīng)的郵編查詢出來,并把標(biāo)準(zhǔn)化處理的地址信息及其對應(yīng)的郵編返回前臺處理終端;這樣可針對會員通訊地址字段出現(xiàn)的缺漏、錯誤進(jìn)行智能補齊,并運用數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù),將雜亂、重復(fù)的地址數(shù)據(jù)進(jìn)行系統(tǒng)自動整理和規(guī)范。此外,系統(tǒng)還能集成了全國最新最全的郵編數(shù)據(jù)庫,通過加載運行自主研發(fā)的地址信息字段智能讀取識別系統(tǒng),可實現(xiàn)數(shù)據(jù)庫自動訪問,進(jìn)行郵編查詢工作,完成郵政編碼精確地校對、補齊和匹配。
比如對于“徐匯區(qū)斜土路1223號”和“上海市之俊大廈”這兩條數(shù)據(jù),平臺通過調(diào)用地理信息數(shù)據(jù)庫很快能判定為同義數(shù)據(jù),甚至之后遇到“上海市黃浦區(qū)斜土路1223號之駿大廈”這樣的數(shù)據(jù)時,平臺還能將其中的分區(qū)錯誤“黃浦區(qū)”和錯字“駿”識別出來,同時結(jié)合全面的郵政編碼庫進(jìn)行郵編查詢,最后調(diào)動將其標(biāo)準(zhǔn)化輸出為“上海市徐匯區(qū)斜土路1223號之俊大廈,200032”。
若提取出的有效信息中包括有郵件地址,就用郵箱域名邏輯判斷及檢測模塊進(jìn)行對郵件地址的格式進(jìn)行檢測,如果郵件地址存在格式錯誤,就改正成正確格式,然后啟動機器人模擬發(fā)送系統(tǒng)把郵件地址發(fā)送到后臺服務(wù)器中,郵件地址若同郵箱域名數(shù)據(jù)庫中的過去出現(xiàn)過的錯誤的郵件地址有相一致的,就替換成和與之該過去出現(xiàn)過的錯誤的郵件地址對應(yīng)的正確的郵件地址,然后把正確的郵件地址返回前臺處理終端;可針對網(wǎng)易、雅虎、新浪等在內(nèi)的個人和企業(yè)公開郵箱域名進(jìn)行智能檢測,通過集成海量公開郵箱域名數(shù)據(jù)庫,運用邏輯運算技術(shù),對格式錯誤的無效地址進(jìn)行剔除,同時還可基于郵箱域名數(shù)據(jù)庫,對失準(zhǔn)域名進(jìn)行近似值匹配,并進(jìn)行正確域名智能補齊,為企業(yè)提供更人性化的數(shù)據(jù)挖掘和清洗工作。
比如當(dāng)看到Ber ry.zh@iclud.com這樣的郵件地址,平臺也會迅速調(diào)用域名邏輯判斷系統(tǒng)進(jìn)行檢測,再結(jié)合郵箱域名數(shù)據(jù)庫進(jìn)行檢測,刪除空格,更正域名,自動將其輸出為Berry.zh@icloud.com。
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把準(zhǔn)化處理的地址信息發(fā)送到所述后臺服務(wù)器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務(wù)器中,并且還能夠進(jìn)行把準(zhǔn)化處理的地址信息和所有會員的會員通訊地址進(jìn)行對比,如果沒有相匹配的會員通訊地址,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進(jìn)行通訊地址核對;
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把郵箱地址信息發(fā)送到所述后臺服務(wù)器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務(wù)器中,并且還能夠進(jìn)行把郵箱地址信息和所有會員的會員的郵箱域名進(jìn)行對比,如果沒有相匹配的會員的郵箱域名,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進(jìn)行郵箱核對。
所述啟動智能語音交互核對功能來進(jìn)行通訊地址核對就是通過智能語音交互與消費者進(jìn)行確認(rèn),得到正確的通訊地址和郵編,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對會員手機號碼對應(yīng)的手機進(jìn)行測撥,在該手機經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應(yīng)的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務(wù)器中存儲,這樣也能起到提供完整數(shù)據(jù)報告,方便企業(yè)對會員留存狀態(tài)進(jìn)行及時掌握,并可通過會員手機號碼狀態(tài)執(zhí)行屬性分類跟蹤管理,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡(luò)服務(wù)器發(fā)送到會員手機號碼對應(yīng)的手機中分別進(jìn)行播放和顯示,在會員通過手機進(jìn)行回復(fù)而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進(jìn)行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進(jìn)行播放并經(jīng)由智能語音識別模塊進(jìn)行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的通訊地址和郵編,然后發(fā)送到后臺服務(wù)器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通。
所述啟動智能語音交互核對功能來進(jìn)行通訊地址核對就是通過智能語音交互與消費者進(jìn)行確認(rèn),得到正確的郵箱地址信息,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對會員手機號碼對應(yīng)的手機進(jìn)行測撥,在該手機經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應(yīng)的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務(wù)器中存儲,這樣也能起到提供完整數(shù)據(jù)報告,方便企業(yè)對會員留存狀態(tài)進(jìn)行及時掌握,并可通過會員手機號碼狀態(tài)執(zhí)行屬性分類跟蹤管理,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡(luò)服務(wù)器發(fā)送到會員手機號碼對應(yīng)的手機中分別進(jìn)行播放和顯示,在會員通過手機進(jìn)行回復(fù)而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進(jìn)行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進(jìn)行播放并經(jīng)由智能語音識別模塊進(jìn)行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的郵箱地址信息,然后發(fā)送到后臺服務(wù)器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通。
智能語音識別模塊對原本的手機號碼清洗領(lǐng)域中,憑機器測撥進(jìn)行正常號碼、關(guān)機、停機、空號、來電提醒、呼入限制等十余種號碼狀態(tài)識別反饋的系統(tǒng)進(jìn)行了有力補充,不僅可以判斷號碼的狀態(tài),還能判斷人與號碼的匹配狀態(tài),完成了分辨機器信號到分辨真實語音的巨大跨越。
為了對語音進(jìn)行準(zhǔn)確辨識,平臺還集成全國八大方言語系,共計二十余種小方言的語法特征和海量語音庫,由機器自動記憶及學(xué)習(xí)系統(tǒng)理解掌握,再用每一次清洗結(jié)果來“反哺”機器大腦,由此平臺也可以在不斷的學(xué)習(xí)及驗證中得到優(yōu)化。
平臺對接收和判斷的結(jié)果完成輸出反饋。在與數(shù)據(jù)相關(guān)人核實信息時,根據(jù)不同的應(yīng)答結(jié)果,通過自然語言處理和智能語音識別,會做出個性化的不同應(yīng)答。
如相關(guān)人確認(rèn)這條數(shù)據(jù),平臺會在表明來意后,將需要分步傳達(dá)的通知信息一次送達(dá),比如相關(guān)人希望了解的活動或賬戶變動的通知信息;對于錯誤的相關(guān)人,平臺會禮貌性解釋情況并結(jié)束溝通;對不確定的信息,還會用其他問題進(jìn)行二次驗證。另外,這些應(yīng)答語音的擬真程度和反應(yīng)速度都與真人無異,保證整個溝通過程順暢快速,不會造成對數(shù)據(jù)相關(guān)人的困擾,更加人性化。
數(shù)據(jù)挖掘的最終目的是讓數(shù)據(jù)庫恢復(fù)健康,并千方百計提高它的質(zhì)量,平臺可以在辨識出清洗結(jié)果后,運用ETL標(biāo)準(zhǔn)化技術(shù)調(diào)動數(shù)據(jù)模型對數(shù)據(jù)庫的“蛀點”進(jìn)行修補優(yōu)化。
像前文提到的電子郵件地址和通訊地址出現(xiàn)的種種錯漏問題,高速地自動刪除、歸類、補充,轉(zhuǎn)換之后,最終將輸出一套標(biāo)準(zhǔn)的綠色的數(shù)據(jù)庫。
同時,平臺的多線程并行系統(tǒng)還將數(shù)據(jù)清洗提升到前所未有的效率。它能以每分鐘百萬字的處理速度,24小時不間斷運轉(zhuǎn),高速準(zhǔn)確過篩人力無法負(fù)荷的數(shù)據(jù)。這也是大數(shù)據(jù)清洗機器人相對于人力的獨特優(yōu)勢。
①面向企業(yè)或者公共政府部門,提供數(shù)據(jù)分析結(jié)果的服務(wù)
定位在某一具體行業(yè),通過大量數(shù)據(jù)支持,對數(shù)據(jù)進(jìn)行挖掘分析后預(yù)測相關(guān)主體的行為,以開展業(yè)務(wù);利用數(shù)據(jù)挖掘技術(shù)幫助客戶開拓精準(zhǔn)營銷或者新業(yè)務(wù)。
②面向個人,提供基于數(shù)據(jù)分析的服務(wù)
面向零售商、政府部門、公共機構(gòu)提供基于地點的人員流動數(shù)據(jù):以時間為維度(小時/天/月/年),在特定區(qū)域的人員人口統(tǒng)計數(shù)據(jù)(性別、年齡)和行動等數(shù)據(jù)。
該平臺典型的實用案例為海淘,從國外寄送到國內(nèi)的貨物,因報關(guān)的身份信息不正確、國內(nèi)地址不正確、聯(lián)系方式不正確等,導(dǎo)致出現(xiàn)無法報關(guān)、無法收貨,而貨物退回海外成本非常高,通過該平臺可以有效解決此問題。
(1)地址標(biāo)準(zhǔn)化
國內(nèi)用戶在海淘網(wǎng)站上下單后,數(shù)據(jù)挖掘平臺立即自動對配送地址進(jìn)行標(biāo)準(zhǔn)化和清洗,將用戶輸入的非標(biāo)準(zhǔn)的地址標(biāo)準(zhǔn)化為xx省xx市/區(qū)xx路/街xx樓xx號。并與數(shù)據(jù)挖掘平臺的全國地址數(shù)據(jù)庫進(jìn)行匹配,對于匹配不到的地址信息,將啟動智能語音交互核對。
例如表1所示:
表1
(2)報關(guān)信息清洗
報關(guān)需核對用戶的身份信息,數(shù)據(jù)挖掘平臺將用戶提供的身份證姓名信息,與公安數(shù)據(jù)庫進(jìn)行比對,對于匹配不到的用戶身份信息,將啟動智能語音交互核對。
例如表2所示:
表2
(3)智能語音清洗
通過智能語音交互與消費者進(jìn)行確認(rèn),得到正確的身份、地址和郵編等信息。
客戶提交的注冊信息包括會員姓名、郵箱、收貨地址,需要對每個會員的這三條信息進(jìn)行數(shù)據(jù)清洗。
例如如下所示:
數(shù)據(jù)挖掘平臺:您好,這里是海淘網(wǎng)客戶服務(wù)中心,您是【王小帥先生嗎?】(語音播放+TTS)
客戶:是的(語義識別)
數(shù)據(jù)挖掘平臺:【412985127@qq.com】是您的郵箱地址嗎?(語音播放+TTS)
客戶:對的(語義識別)
數(shù)據(jù)挖掘平臺:【上海市徐匯區(qū)斜土路之俊大廈1802室】是您的收貨地址嗎?(語音播放+TTS)
客戶:不是,換了。(語義識別)
數(shù)據(jù)挖掘平臺:您現(xiàn)在的收貨地址是哪里?(語音播放)
客戶:徐匯區(qū)斜土路之俊大廈905室(語音播放+地址標(biāo)準(zhǔn)化)
數(shù)據(jù)挖掘平臺:您的收貨地址更改為【上海市徐匯區(qū)斜土路之俊大廈905室】(語音播放+TTS)
客戶:嗯,對的(語義識別)
數(shù)據(jù)挖掘平臺:感謝您的接聽與配合,海淘網(wǎng)祝您購物愉快,再見!(語音播放)電話結(jié)束,根據(jù)電話的結(jié)果,通過ETL標(biāo)準(zhǔn)化流程將此客戶的信息優(yōu)化為:
若一個平臺年平均新增會員數(shù)量為100萬,如果利用傳統(tǒng)的呼叫中心進(jìn)行數(shù)據(jù)清洗工作的話,每條信息需要5分鐘語音通話??偣残枰?000萬分鐘語音通話。呼叫中心以500分鐘/人/天,每年按照250天工作計算。則總共需要40個客服人員一年的工作量。而利用本平臺部署1000條并行線路,則只需要10天即可完成所有的工作。大幅度提升數(shù)據(jù)清洗效率的同時也大大減少人力消耗,相應(yīng)減少企業(yè)的辦公場地、辦公用品等費用,從而極大地減低了企業(yè)大數(shù)據(jù)清洗的成本。每年可以節(jié)約因地址無效導(dǎo)致的貨物損失的數(shù)百萬元費用。
可見,通過本平臺,在需要和人進(jìn)行溝通核實數(shù)據(jù)的清洗環(huán)節(jié),運用現(xiàn)在已有的技術(shù)實現(xiàn)人機對話,對人的回答進(jìn)行識別和判定并及時給出答復(fù),同時完成數(shù)據(jù)的校驗和“蛀點”修復(fù)。將通訊地址出現(xiàn)的種種錯漏問題,高速地自動刪除、歸類、補充,轉(zhuǎn)換之后,最終將輸出一套標(biāo)準(zhǔn)的綠色的數(shù)據(jù)庫。利用云信留客WinRobot機器人智能清洗數(shù)據(jù)挖掘平臺代替?zhèn)鹘y(tǒng)以人工電話的數(shù)據(jù)清洗方式,顯著提高數(shù)據(jù)清洗工作的效率,同時減少人力成本,從而實現(xiàn)數(shù)據(jù)清洗的高效率低成本。
通過智能語音識別模塊,加載計算機機器人控制系統(tǒng),實現(xiàn)對會員手機號碼的零干擾自動測撥,運用信號音自動分析和處理技術(shù),將模擬信號轉(zhuǎn)化成數(shù)字識別信號,實現(xiàn)對會員手機號碼進(jìn)行包括正常號碼、關(guān)機、停機、空號、來電提醒、已設(shè)置呼入限制、暫時無法接通、受限數(shù)據(jù)等十余種狀態(tài)識別反饋,并提供完整數(shù)據(jù)報告,方便企業(yè)對會員留存狀態(tài)進(jìn)行及時掌握,并可通過會員手機號碼狀態(tài)執(zhí)行屬性分類跟蹤管理。
(2)傳統(tǒng)地址清洗功能
通過集成海量公開地理信息數(shù)據(jù)庫,內(nèi)嵌230個地理屬性詞庫、9800萬條地址信息核心詞匯、860萬組錯誤詞條,構(gòu)建了大規(guī)模的地址數(shù)值模型,基于模型匹配原理,可針對會員通訊地址字段出現(xiàn)的缺漏、錯誤進(jìn)行智能補齊,并運用數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù),將雜亂、重復(fù)的地址數(shù)據(jù)進(jìn)行系統(tǒng)自動整理和規(guī)范。此外,系統(tǒng)還集成了全國最新最全的郵編數(shù)據(jù)庫,通過加載運行自主研發(fā)的地址信息字段智能讀取識別系統(tǒng),可實現(xiàn)數(shù)據(jù)庫自動訪問,進(jìn)行郵編查詢工作,完成郵政編碼精確地校對、補齊和匹配。
(3)互聯(lián)網(wǎng)數(shù)據(jù)清洗功能
通過郵箱域名邏輯判斷及檢測模塊,加載計算機機器人模擬發(fā)送系統(tǒng),可針對網(wǎng)易、雅虎、新浪等在內(nèi)的個人和企業(yè)公開郵箱域名進(jìn)行智能檢測,通過集成海量公開郵箱域名數(shù)據(jù)庫,運用邏輯運算技術(shù),對格式錯誤的無效地址進(jìn)行剔除,同時還可基于郵箱域名數(shù)據(jù)庫,對失準(zhǔn)域名進(jìn)行近似值匹配,并進(jìn)行正確域名智能補齊,為企業(yè)提供更人性化的數(shù)據(jù)清洗工作。
所述前臺處理終端包括計算機、PDA或前臺服務(wù)器。
所述會員通過智能終端對前臺處理終端發(fā)送的信息為文本、圖片或者視頻信息。
所述有效信息包括地址信息或者郵件地址。
所述會員ID為身份證號。
以上述依據(jù)本發(fā)明的理想實施例為啟示,通過上述的說明內(nèi)容,相關(guān)工作人員完全可以在不偏離本項發(fā)明技術(shù)思想的范圍內(nèi),進(jìn)行多樣的變更以及修改。本項發(fā)明的技術(shù)性范圍并不局限于說明書上的內(nèi)容,必須要根據(jù)權(quán)利要求范圍來確定其技術(shù)性范圍。