日韩午夜在线视频不卡片,无码人妻精品一区二区三区,97久久草草超级碰碰碰,色欲久久久天天天综合网

您當(dāng)前的位置主頁(yè) > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對(duì)于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫(kù)來輔助。

通過對(duì)Google黑板報(bào)第一章的學(xué)習(xí),如何利用統(tǒng)計(jì)模型進(jìn)行分詞。

本方法考慮了3個(gè)維度:

凝聚程度:兩個(gè)字連續(xù)出現(xiàn)的概率并不是各自獨(dú)立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個(gè)字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實(shí)上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨(dú)立概率之積。所以我們可以認(rèn)為“上床”是一個(gè)詞。

左鄰字聚合熵:分出的詞左邊一個(gè)字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個(gè)詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個(gè)詞的信息量,同上。

下面是一個(gè)利用Python實(shí)現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評(píng)論

登錄賬號(hào): 密碼: 快速注冊(cè) | 找回密碼

非洲黑人吊巨VS亚洲女| 黄色视频在线观看www| 免费在线看A级片儿视频| 精品视频高清500部在线| 深田咏美av一区二区三区| 99久久99久久精品国产片果冻| 免费网站看v片在线香蕉| 91精品福利一区二区三区| 欧美 另类 偷窥 亚洲| 成人免费一区二区三区av| 亚洲最大的成人网站婷婷| 亚洲AV无码久久忘忧草| 欧美性按摩在线观看不卡| 国产国产精品人在线视| 久久午夜鲁丝片午夜精品| 最新国产乱人伦精品视频| 精品人妻码一区二区三区| 国产中的精品av小宝探花| 欧美日韩亚洲国产天堂区| 精品丰满少妇一区二区三区| 第九色区aⅴ天堂久久香| 在线观看连裤袜AV网站| 国产小视频在线免费观看| 黄色特级片一区二区三区| 天天爽夜夜太爽视频精品| 国产精品毛片久久久久久l| 日韩精品亚洲精品第一页| 国精品午夜福利视频不卡| 青青青青青在线观看视频| av无码小缝喷白浆在线观看| 亚洲国产成人一区二区精品区| 一本大道东京热无码AⅤ片| 国产成人自拍视频在线看| 国产av一区二区三区麻豆| 国产成人久久精品77777综合 | 中文有码国产精品欧美激情| 专干老熟女视频在线观看| 天天躁人人爽人人澡人人妻 | 黄大片萌爱网精品亚洲欧美| 欧美一区二区三区不卡水多 | 久久亚洲精品无码爱剪辑|