一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)及其文本挖掘方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái),包括:數(shù)據(jù)采集模塊;數(shù)據(jù)預(yù)處理模塊;文本挖掘模塊;股市預(yù)測(cè)模塊;風(fēng)險(xiǎn)評(píng)估模塊;結(jié)果輸出模塊。本發(fā)明還提供了一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)的文本挖掘方法,是一種將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法以分析文檔中所蘊(yùn)含的觀點(diǎn)、態(tài)度或者情。本發(fā)明設(shè)計(jì)合理,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法以分析文檔中所蘊(yùn)含的觀點(diǎn)、態(tài)度或者情緒,并且根據(jù)數(shù)據(jù)分析得到的結(jié)果進(jìn)行股市風(fēng)險(xiǎn)等級(jí)的評(píng)定,股市風(fēng)險(xiǎn)等級(jí)不僅可以服務(wù)于投資者決策,還可以為政府制定相關(guān)政策、企業(yè)實(shí)施相應(yīng)策略等提供依據(jù)。
【專(zhuān)利說(shuō)明】
-種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)及其文本挖掘方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于股市預(yù)測(cè)與風(fēng)險(xiǎn)識(shí)別領(lǐng)域,具體地說(shuō),設(shè)及一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)及 其文本挖掘方法。
【背景技術(shù)】
[0002] 股票市場(chǎng)是一個(gè)國(guó)家或地區(qū)經(jīng)濟(jì)和金融活動(dòng)的晴雨表,也是企業(yè)融資和投資者資 產(chǎn)配置的重要手段,對(duì)股市的預(yù)測(cè)研究不僅可W為政府、企業(yè)和投資者制定相關(guān)決策提供 依據(jù),還可W規(guī)避金融風(fēng)險(xiǎn),促進(jìn)股票市場(chǎng)穩(wěn)定健康發(fā)展。
[0003] 現(xiàn)有的股市預(yù)測(cè)方法包括證券投資分析法、數(shù)理統(tǒng)計(jì)模型、非線性動(dòng)力學(xué)方法、神 經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,運(yùn)些方法均假設(shè)投資者是理性的,能夠按照最大效用原則進(jìn)行交易 活動(dòng)。而如今股票市場(chǎng)活動(dòng)更加復(fù)雜多變,隨著羊群效應(yīng)、過(guò)度反應(yīng)或者反應(yīng)不足等金融學(xué) 異象的不斷發(fā)現(xiàn),傳統(tǒng)預(yù)測(cè)方法的缺陷逐漸突顯。
[0004] 此外,隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)中包含著海量的信息,不僅包含股市交易等消 息,還包括宏觀經(jīng)濟(jì)新聞、政府相關(guān)政策等對(duì)股市有重要影響的內(nèi)容,已經(jīng)成為投資者獲取 信息的不可替代的渠道。另一方面,隨著論壇、微博等自媒體和交流平臺(tái)的出現(xiàn),股民在互 聯(lián)網(wǎng)上就市場(chǎng)走勢(shì)、宏觀經(jīng)濟(jì)政策、投資意向等發(fā)表自己的觀點(diǎn)并進(jìn)行信息交換,互聯(lián)網(wǎng)成 為挖掘投資者情緒的重要載體。
[0005] 現(xiàn)有的股市預(yù)測(cè)平臺(tái)大多是建立在傳統(tǒng)的股市預(yù)測(cè)方法之上,其缺點(diǎn)主要體現(xiàn)在 W下=方面: 第一,忽略了投資者情緒和行為對(duì)股票市場(chǎng)的影響,預(yù)測(cè)結(jié)果不能反映真實(shí)的市場(chǎng)動(dòng) 態(tài)。
[0006] 第二,專(zhuān)注于研究股市交易等信息,而忽略了對(duì)互聯(lián)網(wǎng)新聞、論壇等數(shù)據(jù)的研究。
[0007] 第=,缺少風(fēng)險(xiǎn)評(píng)估模塊,股市預(yù)測(cè)的目的不僅在于指導(dǎo)投資者決策,獲得投資收 益,更在于識(shí)別金融市場(chǎng)風(fēng)險(xiǎn),防止系統(tǒng)性風(fēng)險(xiǎn)的發(fā)生,維護(hù)金融市場(chǎng)穩(wěn)定和國(guó)家金融市場(chǎng) 安全。
【發(fā)明內(nèi)容】
[000引本發(fā)明要解決的技術(shù)問(wèn)題是克服上述缺陷,提供一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)及其文本 挖掘方法,設(shè)計(jì)合理,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法W分析文檔中所蘊(yùn) 含的觀點(diǎn)、態(tài)度或者情緒,并且根據(jù)數(shù)據(jù)分析得到的結(jié)果進(jìn)行股市風(fēng)險(xiǎn)等級(jí)的評(píng)定,股市風(fēng) 險(xiǎn)等級(jí)不僅可W服務(wù)于投資者決策,還可W為政府制定相關(guān)政策、企業(yè)實(shí)施相應(yīng)策略等提 供依據(jù)。
[0009]為解決上述問(wèn)題,本發(fā)明所采用的技術(shù)方案是: 一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái),其特征在于:包括: 數(shù)據(jù)采集模塊,用于自動(dòng)捜集和獲取股票市場(chǎng)交易數(shù)據(jù)和多源互聯(lián)網(wǎng)文本數(shù)據(jù); 數(shù)據(jù)預(yù)處理模塊,對(duì)數(shù)據(jù)采集模塊中獲取的數(shù)據(jù)進(jìn)行預(yù)處理,包含數(shù)據(jù)清洗、數(shù)據(jù)集 成、數(shù)據(jù)變換和數(shù)據(jù)歸約,為建立股市預(yù)測(cè)模型做好數(shù)據(jù)準(zhǔn)備工作; 文本挖掘模塊,用于對(duì)互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行分析處理W挖掘投資者情緒,構(gòu)建情緒指 數(shù),包含文本分詞、詞性標(biāo)注、情感極性標(biāo)注、情緒指數(shù)計(jì)算、情緒指數(shù)調(diào)整、情緒指數(shù)整合 六大步驟; 股市預(yù)測(cè)模塊,綜合應(yīng)用文本挖掘、機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)的方法對(duì)股票市場(chǎng)進(jìn)行預(yù)測(cè)分 析; 風(fēng)險(xiǎn)評(píng)估模塊,根據(jù)股市預(yù)測(cè)模塊的結(jié)果對(duì)實(shí)時(shí)監(jiān)控的股票和市場(chǎng)整體趨勢(shì)進(jìn)行風(fēng)險(xiǎn) 等級(jí)劃分; 結(jié)果輸出模塊,用于向投資者輸出所關(guān)注的股票的風(fēng)險(xiǎn)等級(jí),并同時(shí)輸出整個(gè)市場(chǎng)的 風(fēng)險(xiǎn)等級(jí)情況并提供實(shí)時(shí)預(yù)警。
[0010] 本發(fā)明還提供了一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)的文本挖掘方法,是一種將非結(jié)構(gòu)化的文 本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法W分析文檔中所蘊(yùn)含的觀點(diǎn)、態(tài)度或者情緒; 文本挖掘方法所采用的互聯(lián)網(wǎng)文本數(shù)據(jù)庫(kù)包含政策新聞、財(cái)經(jīng)新聞、論壇數(shù)據(jù)=方面, 政策新聞可W挖掘政府的態(tài)度和傾向,財(cái)經(jīng)新聞可W 了解社會(huì)經(jīng)濟(jì)的綜合信息,論壇數(shù)據(jù) 可W較為直接地提取投資者情緒; 股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)中的文本挖掘模塊是應(yīng)用文本挖掘方法對(duì)互聯(lián)網(wǎng)中的文本數(shù)據(jù)進(jìn) 行分析處理,從而提煉出投資者的觀點(diǎn)、態(tài)度、情緒,然后將計(jì)算出來(lái)的情緒指數(shù)作為輸入 變量應(yīng)用在股市預(yù)測(cè)模塊。
[0011] 由于采用了上述技術(shù)方案,與現(xiàn)有技術(shù)相比,本發(fā)明設(shè)計(jì)合理,將非結(jié)構(gòu)化的文本 數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法W分析文檔中所蘊(yùn)含的觀點(diǎn)、態(tài)度或者情緒,并且根據(jù)數(shù)據(jù) 分析得到的結(jié)果進(jìn)行股市風(fēng)險(xiǎn)等級(jí)的評(píng)定,股市風(fēng)險(xiǎn)等級(jí)不僅可W服務(wù)于投資者決策,還 可W為政府制定相關(guān)政策、企業(yè)實(shí)施相應(yīng)策略等提供依據(jù)。
[0012] 同時(shí)下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
【附圖說(shuō)明】
[0013] 圖1為本發(fā)明一種實(shí)施例中股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)的結(jié)構(gòu)框圖; 圖2為本發(fā)明一種實(shí)施例中股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)模塊的結(jié)構(gòu)框圖; 圖3為本發(fā)明一種實(shí)施例中文本挖掘方法的流程圖。
【具體實(shí)施方式】
[0014] 實(shí)施例: 一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái),如圖1和圖2所示,包括: 數(shù)據(jù)采集模塊,應(yīng)用平臺(tái)內(nèi)置爬蟲(chóng)程序自動(dòng)地獲取證監(jiān)會(huì)、銀監(jiān)會(huì)、央行、新聞聯(lián)播、和 訊網(wǎng)、東方財(cái)富、新浪財(cái)經(jīng)論壇、網(wǎng)易財(cái)經(jīng)論壇、騰訊財(cái)經(jīng)論壇的文本數(shù)據(jù)W及股票市場(chǎng)交 易數(shù)據(jù)。
[0015] 數(shù)據(jù)預(yù)處理模塊,對(duì)收集的文本數(shù)據(jù)進(jìn)行去噪操作,包含數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù) 據(jù)變換和數(shù)據(jù)歸約等,W滿足建模的需求。
[0016] 文本挖掘模塊,按照上述文本挖掘步驟得到政策情緒日度指數(shù)、財(cái)經(jīng)情緒日度指 數(shù)、論壇情緒日度指數(shù)和綜合情緒日度指數(shù)。
[0017] 股市預(yù)測(cè)模塊,應(yīng)用綜合情緒日度指數(shù)及其滯后項(xiàng)、上證指數(shù)收益率及其滯后項(xiàng)、 交易量、波動(dòng)率建立向量自回歸模型,對(duì)上證指數(shù)的走勢(shì)進(jìn)行預(yù)測(cè); 風(fēng)險(xiǎn)評(píng)估模塊,系統(tǒng)將風(fēng)險(xiǎn)分為五個(gè)等級(jí),一級(jí)為極低風(fēng)險(xiǎn),二級(jí)為較低風(fēng)險(xiǎn),=級(jí)為 中等風(fēng)險(xiǎn),四級(jí)為中高風(fēng)險(xiǎn),五級(jí)為高風(fēng)險(xiǎn),提示股票市場(chǎng)的整體風(fēng)險(xiǎn)。
[0018] 結(jié)果輸出模塊,輸出股票市場(chǎng)整體風(fēng)險(xiǎn)等級(jí)并提示風(fēng)險(xiǎn),五級(jí)高風(fēng)險(xiǎn)適合激進(jìn)型 投資者,四級(jí)中高風(fēng)險(xiǎn)適合積極型投資者,=級(jí)中等風(fēng)險(xiǎn)適合平衡型投資者,二級(jí)較低風(fēng)險(xiǎn) 適合穩(wěn)健型投資者,一級(jí)較低風(fēng)險(xiǎn)適合保守型投資者。股市風(fēng)險(xiǎn)等級(jí)不僅可W服務(wù)于投資 者決策,還可W為政府制定相關(guān)政策、企業(yè)實(shí)施相應(yīng)策略等提供依據(jù)。
[0019] 在上述本發(fā)明實(shí)施例提供了一種文本挖掘方法,如圖3所示, 數(shù)據(jù)來(lái)源包含政策新聞、財(cái)經(jīng)新聞、論壇數(shù)據(jù)=部分,政策新聞的來(lái)源包括證監(jiān)會(huì)、銀 監(jiān)會(huì)、央行和新聞聯(lián)播,財(cái)經(jīng)新聞的來(lái)源包含和訊網(wǎng)、東方財(cái)富,論壇數(shù)據(jù)的來(lái)源是新浪財(cái) 經(jīng)論壇、網(wǎng)易財(cái)經(jīng)論壇和騰訊財(cái)經(jīng)論壇。針對(duì)W上新聞來(lái)源進(jìn)行文本分析處理W挖掘市場(chǎng) 情緒和投資者情緒; 1) 、文本分詞,應(yīng)用分詞系統(tǒng)對(duì)文本數(shù)據(jù)進(jìn)行切詞處理; 2) 、詞性標(biāo)注,除去停用詞、語(yǔ)氣詞等之后對(duì)詞語(yǔ)進(jìn)行詞性標(biāo)注; 3) 、情感極性標(biāo)注,對(duì)詞語(yǔ)進(jìn)行情感極性標(biāo)注,分為積極的詞語(yǔ)、消極的詞語(yǔ)和中性詞 語(yǔ),同時(shí)分別統(tǒng)計(jì)積極詞語(yǔ)和消極詞語(yǔ)的個(gè)數(shù); 4) 、情緒指數(shù)計(jì)算,根據(jù)情緒計(jì)算公式(1),可W得到每篇新聞或者論壇評(píng)論數(shù)據(jù)的情 緒指數(shù),從而得到每天的情緒指數(shù),其中,Sdx表示情緒指數(shù),化代表消極詞語(yǔ)的個(gè)數(shù),化積 極詞語(yǔ)的個(gè)數(shù),情緒指數(shù)大于0代表悲觀投資者情緒,情緒指數(shù)小于0代表樂(lè)觀投資者情緒;
化) 5) 、情緒指數(shù)調(diào)整,104步驟中發(fā)現(xiàn)政府網(wǎng)站新聞具有特殊性,政策新聞在一定時(shí)間內(nèi) 都具有影響力且政策新聞稀疏性大,即沒(méi)有政策新聞并不代表政府沒(méi)有情緒的表達(dá),而是 政策新聞的出現(xiàn)代表了相關(guān)監(jiān)管部口在一段時(shí)間內(nèi)對(duì)股市的態(tài)度,因此設(shè)置時(shí)間衰減因子 來(lái)對(duì)政策新聞進(jìn)行調(diào)整,調(diào)整后的政策新聞指數(shù)用表示,計(jì)算公式如(2)所示,蔚表示原始 政策新聞指數(shù)的第Ki=O, 1,2)期滯后項(xiàng),其中衣巧 是單調(diào)遞減的時(shí)間衰減函數(shù),計(jì)算公式如(3)所示;
..鷄!. 巧 6) 、情緒指數(shù)整合,綜合104和105的情緒指數(shù),可W得到政策情緒日度指數(shù)、財(cái)經(jīng)情緒 日度指數(shù)、論壇情緒日度指數(shù)和綜合情緒日度指數(shù)。
[0020] 本發(fā)明不局限于上述的優(yōu)選實(shí)施方式,任何人應(yīng)該得知在本發(fā)明的啟示下做出的 結(jié)構(gòu)變化,凡是與本發(fā)明具有相同或者相近似的技術(shù)方案,均屬于本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái),其特征在于: 包括: 數(shù)據(jù)采集模塊,用于自動(dòng)搜集和獲取股票市場(chǎng)交易數(shù)據(jù)和多源互聯(lián)網(wǎng)文本數(shù)據(jù); 數(shù)據(jù)預(yù)處理模塊,對(duì)數(shù)據(jù)采集模塊中獲取的數(shù)據(jù)進(jìn)行預(yù)處理,包含數(shù)據(jù)清洗、數(shù)據(jù)集 成、數(shù)據(jù)變換和數(shù)據(jù)歸約,為建立股市預(yù)測(cè)模型做好數(shù)據(jù)準(zhǔn)備工作; 文本挖掘模塊,用于對(duì)互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行分析處理以挖掘投資者情緒,構(gòu)建情緒指 數(shù),包含文本分詞、詞性標(biāo)注、情感極性標(biāo)注、情緒指數(shù)計(jì)算、情緒指數(shù)調(diào)整、情緒指數(shù)整合 六大步驟; 股市預(yù)測(cè)模塊,綜合應(yīng)用文本挖掘、機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)的方法對(duì)股票市場(chǎng)進(jìn)行預(yù)測(cè)分 析; 風(fēng)險(xiǎn)評(píng)估模塊,根據(jù)股市預(yù)測(cè)模塊的結(jié)果對(duì)實(shí)時(shí)監(jiān)控的股票和市場(chǎng)整體趨勢(shì)進(jìn)行風(fēng)險(xiǎn) 等級(jí)劃分; 結(jié)果輸出模塊,用于向投資者輸出所關(guān)注的股票的風(fēng)險(xiǎn)等級(jí),并同時(shí)輸出整個(gè)市場(chǎng)的 風(fēng)險(xiǎn)等級(jí)情況并提供實(shí)時(shí)預(yù)警。2. 根據(jù)權(quán)利要求1所述的股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)的文本挖掘方法,其特征在于: 文本挖掘方法是一種將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法以分析文檔中 所蘊(yùn)含的觀點(diǎn)、態(tài)度或者情緒; 文本挖掘方法所采用的互聯(lián)網(wǎng)文本數(shù)據(jù)庫(kù)包含政策新聞、財(cái)經(jīng)新聞、論壇數(shù)據(jù)三方面, 政策新聞可以挖掘政府的態(tài)度和傾向,財(cái)經(jīng)新聞可以了解社會(huì)經(jīng)濟(jì)的綜合信息,論壇數(shù)據(jù) 可以較為直接地提取投資者情緒; 股市風(fēng)險(xiǎn)預(yù)測(cè)平臺(tái)中的文本挖掘模塊是應(yīng)用文本挖掘方法對(duì)互聯(lián)網(wǎng)中的文本數(shù)據(jù)進(jìn) 行分析處理,從而提煉出投資者的觀點(diǎn)、態(tài)度、情緒,然后將計(jì)算出來(lái)的情緒指數(shù)作為輸入 變量應(yīng)用在股市預(yù)測(cè)模塊。
【文檔編號(hào)】G06Q10/06GK105956770SQ201610283046
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年5月3日
【發(fā)明人】吳德勝
【申請(qǐng)人】中國(guó)科學(xué)院大學(xué)