1、2023/1/7Speech Lab.NTNUSpeech Lab.NTNUSpeech Lab.NTNUSpeech Lab.NTNUCPT:Conditional Probability TableSpeech Lab.NTNU22.07.0*)8.01(1.0*8.0)|()|()|()|(),|()|(),|()|()(),|()|()()(),|()|()()(),()(),()|,()|,()|(RFPCRPRFPCRPCRFPCRPCRFPCRPCPCRFPCRPCPCPCRFPCRPCPCPCRFPCPCRFPCRFPCRFPCFPSpeech Lab.NTNU57.03.01
2、71.05.0*)5.01(5.0*1.0)7.0*)5.0(*)1.01(*)5.01(1.0*5.0*1.0*)5.01(7.0*1.0*)8.01(*5.01.0*1.0*8.0*5.0)()|()()|()|()|()|()()()|()()|()|()|()|()()()|()()|()|()|()|()()()|()()|()|()|()|()()()|()()|()|()|()|()(),(),()|()|()|()()()|()|()|()()(),|(),|()|()()(),()|,()|,()|(CPCSPCPCSPRFPCSPCRPCPCPCSPCPCSPRFPCSPC
3、RPCPCPCSPCPCSPRFPCSPCRPCPCPCSPCPCSPRFPCSPCRPCPCPCSPCPCSPRFPCSPCRPCPCSPCSPRFPCSPCRPCPSPRFPCSPCRPCPSPSRCFPRCSPCRPCPSPSCRFPSCRFPSRFPSFPCRCRCRCRCRCRRSpeech Lab.NTNUw2Cw1w3wnw2Cw1w3wn簡單貝式分類器複雜貝式分類器Speech Lab.NTNU dPCPCdPdCPkkk)(kCP)|(kCdPjlkkkkCNCNCP,)|(kCdPSpeech Lab.NTNU VtkttdkttdkCwPICwPICdP1,11kCdit
4、ktCNdwICwPki,Speech Lab.NTNUdwnVtktVttVttktCwPdwndwndPCdP,111!,!,|)(|jlkCditCditktkikidwndwnCwP,Speech Lab.NTNUkkjlkCPCdPk,*maxargSpeech Lab.NTNUSpeech Lab.NTNUkttktCwPg1,jlkktktjlkjlkktkttCwnCwnCwnCwn,log,2log1Speech Lab.NTNUTUSVM SvvllSvvjjSpeech Lab.NTNUUdSvvTdSvSvvSvSvS,vv,vkTk2kk cosRSpeech Lab
5、.NTNUSpeech Lab.NTNUmiikikGwPCwPCdP121)|()|()|(),|()|()|()|()|()|(132211211kiimiikikkCwwPGwPCwPGwPCwPCdP),|(),|()|()|()|()|()|(14132211211GwwPCwwPGwPCwPGwPCwPCdPiikiiniikikkSpeech Lab.NTNU表表 1 Ling-Spam郵件郵件語料資料表語料資料表類別合法郵件垃圾郵件數量2412481總詞數1,531,209439,040平均長度634.83912.77收錄時期July 17,2000表表 2 2 中文訓練中文訓
6、練郵件郵件語料資料語料資料表表類別合法郵件垃圾郵件數量1188430總詞數157,86174,197平均長度132.88172.55收錄時期March 2005June 2005表表 3 3 中文測試中文測試郵件郵件語料資料表語料資料表類別合法郵件垃圾郵件數量17183總詞數11,8445,174平均長度69.2662.34收錄時期April 2005July 2005Speech Lab.NTNUjlktCCCftktktktkfPCPfCPfCPWCMI,1,0)()(),(log),();(),(tkfCP)(kCP)(tfP),(tkfCP)(kCP)(tfPSpeech Lab.NT
7、NU(多項式模型)特徵數量與正確率關係圖30%40%50%60%70%80%90%100%100014000310004600058000特徵數量正確率合法郵件垃圾郵件Speech Lab.NTNU表表 4LSA維度與正確率實驗結果維度與正確率實驗結果(使用使用Ling-Spam語料語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)d=2604,r=2585.4966.3482.31d=2604,r=10085.6668.4282.79d=2604,r=25085.7468.4282.86d=2604,r=50085.7868.4282.89d=2,r=294.3691.0793.
8、81d表示訓練郵件總數,r表示SVD的維度Speech Lab.NTNU表表 5隱藏式馬可夫模型各類型比較隱藏式馬可夫模型各類型比較(使用使用Ling-Spam語料語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)型I99.4296.6898.96型II99.9697.3099.52型III99.9698.3499.69Speech Lab.NTNU表表 6 各種模型正確率各種模型正確率(使用使用Ling-Spam語料語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)MVB99.5064.6793.71MN99.4297.7399.14LSA94.3691.0793.81HMM99.9698.3499.69Speech Lab.NTNU表表7 各種模型正確率各種模型正確率(使用中文語料使用中文語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)MVB99.4249.4086.12MN98.2560.0288.15LSA99.4267.4790.93HMM98.2574.7091.99Speech Lab.NTNU
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。