中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

互聯(lián)網(wǎng)時(shí)代的社會(huì)語(yǔ)言學(xué):基于SNS的文本數(shù)據(jù)挖掘

2019-03-22    來(lái)源:matrix67.com

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作為中文系應(yīng)用語(yǔ)言學(xué)專業(yè)的學(xué)生以及一名數(shù)學(xué) Geek ,我非常熱衷于用計(jì)算的方法去分析漢語(yǔ)資料。漢語(yǔ)是一種獨(dú)特而神奇的語(yǔ)言。對(duì)漢語(yǔ)資料進(jìn)行自然語(yǔ)言處理時(shí),我們會(huì)遇到很多其他語(yǔ)言不會(huì)有的困難,比如分詞——漢語(yǔ)的詞與詞之間沒(méi)有空格,那計(jì)算機(jī)怎么才知道,“已結(jié)婚的和尚未結(jié)婚的青年都要實(shí)行計(jì)劃生育”究竟說(shuō)的是“已/結(jié)婚/的/和/尚未/結(jié)婚/的/青年”,還是“已/結(jié)婚/的/和尚/未/結(jié)婚/的/青年”呢?這就是所謂的分詞歧義難題。不過(guò),現(xiàn)在很多語(yǔ)言模型已經(jīng)能比較漂亮地解決這一問(wèn)題了。但在中文分詞領(lǐng)域里,還有一個(gè)比分詞歧義更令人頭疼的東西——未登錄詞。中文沒(méi)有首字母大寫(xiě),專名號(hào)也被取消了,這叫計(jì)算機(jī)如何辨認(rèn)人名地名之類的東西?更慘的則是機(jī)構(gòu)名、品牌名、專業(yè)名詞、縮略語(yǔ)、網(wǎng)絡(luò)新詞等等,它們的產(chǎn)生機(jī)制似乎完全無(wú)規(guī)律可尋。最近十年來(lái),中文分詞領(lǐng)域都在集中攻克這一難關(guān)。自動(dòng)發(fā)現(xiàn)新詞成為了關(guān)鍵的環(huán)節(jié)。

挖掘新詞的傳統(tǒng)方法是,先對(duì)文本進(jìn)行分詞,然后猜測(cè)未能成功匹配的剩余片段就是新詞。這似乎陷入了一個(gè)怪圈:分詞的準(zhǔn)確性本身就依賴于詞庫(kù)的完整性,如果詞庫(kù)中根本沒(méi)有新詞,我們又怎么能信任分詞結(jié)果呢?此時(shí),一種大膽的想法是,首先不依賴于任何已有的詞庫(kù),僅僅根據(jù)詞的共同特征,將一段大規(guī)模語(yǔ)料中可能成詞的文本片段全部提取出來(lái),不管它是新詞還是舊詞。然后,再把所有抽出來(lái)的詞和已有詞庫(kù)進(jìn)行比較,不就能找出新詞了嗎?有了抽詞算法后,我們還能以詞為單位做更多有趣的數(shù)據(jù)挖掘工作。這里,我所選用的語(yǔ)料是人人網(wǎng) 2011 年 12 月前半個(gè)月部分用戶的狀態(tài)。非常感謝人人網(wǎng)提供這份極具價(jià)值的網(wǎng)絡(luò)語(yǔ)料。

要想從一段文本中抽出詞來(lái),我們的第一個(gè)問(wèn)題就是,怎樣的文本片段才算一個(gè)詞?大家想到的第一個(gè)標(biāo)準(zhǔn)或許是,看這個(gè)文本片段出現(xiàn)的次數(shù)是否足夠多。我們可以把所有出現(xiàn)頻數(shù)超過(guò)某個(gè)閾值的片段提取出來(lái),作為該語(yǔ)料中的詞匯輸出。不過(guò),光是出現(xiàn)頻數(shù)高還不夠,一個(gè)經(jīng)常出現(xiàn)的文本片段有可能不是一個(gè)詞,而是多個(gè)詞構(gòu)成的詞組。在人人網(wǎng)用戶狀態(tài)中,“的電影”出現(xiàn)了389 次,“電影院”只出現(xiàn)了175 次,然而我們卻更傾向于把“電影院”當(dāng)作一個(gè)詞,因?yàn)橹庇X(jué)上看,“電影”和“院”凝固得更緊一些。

為了證明“電影院”一詞的內(nèi)部凝固程度確實(shí)很高,我們可以計(jì)算一下,如果“電影”和“院”真的是各自獨(dú)立地在文本中隨機(jī)出現(xiàn),它倆正好拼到一起的概率會(huì)有多小。在整個(gè) 2400 萬(wàn)字的數(shù)據(jù)中,“電影”一共出現(xiàn)了 2774 次,出現(xiàn)的概率約為 0.000113 。“院”字則出現(xiàn)了 4797 次,出現(xiàn)的概率約為 0.0001969 。如果兩者之間真的毫無(wú)關(guān)系,它們恰好拼在了一起的概率就應(yīng)該是 0.000113 × 0.0001969 ,約為 2.223 × 10-8 次方。但事實(shí)上,“電影院”在語(yǔ)料中一共出現(xiàn)了 175 次,出現(xiàn)概率約為 7.183 × 10-6 次方,是預(yù)測(cè)值的 300 多倍。類似地,統(tǒng)計(jì)可得“的”字的出現(xiàn)概率約為 0.0166 ,因而“的”和“電影”隨機(jī)組合到了一起的理論概率值為 0.0166 × 0.000113 ,約為 1.875 × 10-6 ,這與“的電影”出現(xiàn)的真實(shí)概率很接近——真實(shí)概率約為 1.6 × 10-5 次方,是預(yù)測(cè)值的 8.5 倍。計(jì)算結(jié)果表明,“電影院”更可能是一個(gè)有意義的搭配,而“的電影”則更像是“的”和“電影”這兩個(gè)成分偶然拼到一起的。

當(dāng)然,作為一個(gè)無(wú)知識(shí)庫(kù)的抽詞程序,我們并不知道“電影院”是“電影”加“院”得來(lái)的,也并不知道“的電影”是“的”加上“電影”得來(lái)的。錯(cuò)誤的切分方法會(huì)過(guò)高地估計(jì)該片段的凝合程度。如果我們把“電影院”看作是“電”加“影院”所得,由此得到的凝合程度會(huì)更高一些。因此,為了算出一個(gè)文本片段的凝合程度,我們需要枚舉它的凝合方式——這個(gè)文本片段是由哪兩部分組合而來(lái)的。令 p(x) 為文本片段 x 在整個(gè)語(yǔ)料中出現(xiàn)的概率,那么我們定義“電影院”的凝合程度就是 p(電影院) 與 p(電) · p(影院) 比值和 p(電影院) 與 p(電影) · p(院) 的比值中的較小值,“的電影”的凝合程度則是 p(的電影) 分別除以 p(的) · p(電影) 和 p(的電) · p(影) 所得的商的較小值。

可以想到,凝合程度最高的文本片段就是諸如“蝙蝠”、“蜘蛛”、“彷徨”、“忐忑”、“玫瑰”之類的詞了,這些詞里的每一個(gè)字幾乎總是會(huì)和另一個(gè)字同時(shí)出現(xiàn),從不在其他場(chǎng)合中使用。

光看文本片段內(nèi)部的凝合程度還不夠,我們還需要從整體來(lái)看它在外部的表現(xiàn)。考慮“被子”和“輩子”這兩個(gè)片段。我們可以說(shuō)“買(mǎi)被子”、“蓋被子”、“進(jìn)被子”、“好被子”、“這被子”等等,在“被子”前面加各種字;但“輩子”的用法卻非常固定,除了“一輩子”、“這輩子”、“上輩子”、“下輩子”,基本上“輩子”前面不能加別的字了。“輩子”這個(gè)文本片段左邊可以出現(xiàn)的字太有限,以至于直覺(jué)上我們可能會(huì)認(rèn)為,“輩子”并不單獨(dú)成詞,真正成詞的其實(shí)是“一輩子”、“這輩子”之類的整體。可見(jiàn),文本片段的自由運(yùn)用程度也是判斷它是否成詞的重要標(biāo)準(zhǔn)。如果一個(gè)文本片段能夠算作一個(gè)詞的話,它應(yīng)該能夠靈活地出現(xiàn)在各種不同的環(huán)境中,具有非常豐富的左鄰字集合和右鄰字集合。

“信息熵”是一個(gè)非常神奇的概念,它能夠反映知道一個(gè)事件的結(jié)果后平均會(huì)給你帶來(lái)多大的信息量。如果某個(gè)結(jié)果的發(fā)生概率為 p ,當(dāng)你知道它確實(shí)發(fā)生了,你得到的信息量就被定義為 - log(p) 。 p 越小,你得到的信息量就越大。如果一顆骰子的六個(gè)面分別是 1 、 1 、 1 、 2 、 2 、 3 ,那么你知道了投擲的結(jié)果是 1 時(shí)可能并不會(huì)那么吃驚,它給你帶來(lái)的信息量是 - log(1/2) ,約為 0.693 。知道投擲結(jié)果是 2 ,給你帶來(lái)的信息量則是 - log(1/3) ≈ 1.0986 。知道投擲結(jié)果是 3 ,給你帶來(lái)的信息量則有 - log(1/6) ≈ 1.79 。但是,你只有 1/2 的機(jī)會(huì)得到 0.693 的信息量,只有 1/3 的機(jī)會(huì)得到 1.0986 的信息量,只有 1/6 的機(jī)會(huì)得到 1.79 的信息量,因而平均情況下你會(huì)得到 0.693/2 + 1.0986/3 + 1.79/6 ≈ 1.0114 的信息量。這個(gè) 1.0114 就是那顆骰子的信息熵,F(xiàn)在,假如某顆骰子有 100 個(gè)面,其中 99 個(gè)面都是 1 ,只有一個(gè)面上寫(xiě)的 2 。知道骰子的拋擲結(jié)果是 2 會(huì)給你帶來(lái)一個(gè)巨大無(wú)比的信息量,它等于 - log(1/100) ,約為 4.605 ;但你只有百分之一的概率獲取到這么大的信息量,其他情況下你只能得到 - log(99/100) ≈ 0.01005 的信息量。平均情況下,你只能獲得 0.056 的信息量,這就是這顆骰子的信息熵。再考慮一個(gè)最極端的情況:如果一顆骰子的六個(gè)面都是 1 ,投擲它不會(huì)給你帶來(lái)任何信息,它的信息熵為 - log(1) = 0 。什么時(shí)候信息熵會(huì)更大呢?換句話說(shuō),發(fā)生了怎樣的事件之后,你最想問(wèn)一下它的結(jié)果如何?直覺(jué)上看,當(dāng)然就是那些結(jié)果最不確定的事件。沒(méi)錯(cuò),信息熵直觀地反映了一個(gè)事件的結(jié)果有多么的隨機(jī)。

我們用信息熵來(lái)衡量一個(gè)文本片段的左鄰字集合和右鄰字集合有多隨機(jī)?紤]這么一句話“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”一詞出現(xiàn)了四次,其中左鄰字分別為 {吃, 吐, 吃, 吐} ,右鄰字分別為 {不, 皮, 倒, 皮} 。根據(jù)公式,“葡萄”一詞的左鄰字的信息熵為 - (1/2) · log(1/2) - (1/2) · log(1/2) ≈ 0.693 ,它的右鄰字的信息熵則為 - (1/2) · log(1/2) - (1/4) · log(1/4) - (1/4) · log(1/4) ≈ 1.04 ?梢(jiàn),在這個(gè)句子中,“葡萄”一詞的右鄰字更加豐富一些。

在人人網(wǎng)用戶狀態(tài)中,“被子”一詞一共出現(xiàn)了 956 次,“輩子”一詞一共出現(xiàn)了 2330 次,兩者的右鄰字集合的信息熵分別為 3.87404 和 4.11644 ,數(shù)值上非常接近。但“被子”的左鄰字用例非常豐富:用得最多的是“曬被子”,它一共出現(xiàn)了 162 次;其次是“的被子”,出現(xiàn)了 85 次;接下來(lái)分別是“條被子”、“在被子”、“床被子”,分別出現(xiàn)了 69 次、 64 次和 52 次;當(dāng)然,還有“疊被子”、“蓋被子”、“加被子”、“新被子”、“掀被子”、“收被子”、“薄被子”、“踢被子”、“搶被子”等 100 多種不同的用法構(gòu)成的長(zhǎng)尾??所有左鄰字的信息熵為 3.67453 。但“輩子”的左鄰字就很可憐了, 2330 個(gè)“輩子”中有 1276 個(gè)是“一輩子”,有 596 個(gè)“這輩子”,有 235 個(gè)“下輩子”,有 149 個(gè)“上輩子”,有 32 個(gè)“半輩子”,有 10 個(gè)“八輩子”,有 7 個(gè)“幾輩子”,有 6 個(gè)“哪輩子”,以及“n 輩子”、“兩輩子”等 13 種更罕見(jiàn)的用法。所有左鄰字的信息熵僅為 1.25963 。因而,“輩子”能否成詞,明顯就有爭(zhēng)議了。“下子”則是更典型的例子, 310 個(gè)“下子”的用例中有 294 個(gè)出自“一下子”, 5 個(gè)出自“兩下子”, 5 個(gè)出自“這下子”,其余的都是只出現(xiàn)過(guò)一次的罕見(jiàn)用法。事實(shí)上,“下子”的左鄰字信息熵僅為 0.294421 ,我們不應(yīng)該把它看作一個(gè)能靈活運(yùn)用的詞。當(dāng)然,一些文本片段的左鄰字沒(méi)啥問(wèn)題,右鄰字用例卻非常貧乏,例如“交響”、“后遺”、“鵝卵”等,把它們看作單獨(dú)的詞似乎也不太合適。我們不妨就把一個(gè)文本片段的自由運(yùn)用程度定義為它的左鄰字信息熵和右鄰字信息熵中的較小值。

在實(shí)際運(yùn)用中你會(huì)發(fā)現(xiàn),文本片段的凝固程度和自由程度,兩種判斷標(biāo)準(zhǔn)缺一不可。只看凝固程度的話,程序會(huì)找出“巧克”、“俄羅”、“顏六色”、“柴可夫”等實(shí)際上是“半個(gè)詞”的片段;只看自由程度的話,程序則會(huì)把“吃了一頓”、“看了一遍”、“睡了一晚”、“去了一趟”中的“了一”提取出來(lái),因?yàn)樗淖笥亦徸侄继S富了。

我們把文本中出現(xiàn)過(guò)的所有長(zhǎng)度不超過(guò) d 的子串都當(dāng)作潛在的詞(即候選詞,其中 d 為自己設(shè)定的候選詞長(zhǎng)度上限,我設(shè)定的值為 5 ),再為出現(xiàn)頻數(shù)、凝固程度和自由程度各設(shè)定一個(gè)閾值,然后只需要提取出所有滿足閾值要求的候選詞即可。為了提高效率,我們可以把語(yǔ)料全文視作一整個(gè)字符串,并對(duì)該字符串的所有后綴按字典序排序。下表就是對(duì)“四是四十是十十四是十四四十是四十”的所有后綴進(jìn)行排序后的結(jié)果。實(shí)際上我們只需要在內(nèi)存中存儲(chǔ)這些后綴的前 d + 1 個(gè)字,或者更好地,只儲(chǔ)存它們?cè)谡Z(yǔ)料中的起始位置。

十十四是十四四十是四十

十是十十四是十四四十是四十

十是四十

十四是十四四十是四十

十四四十是四十

是十十四是十四四十是四十

是十四四十是四十

是四十

是四十是十十四是十四四十是四十

四十

四十是十十四是十四四十是四十

四十是四十

四是十四四十是四十

四是四十是十十四是十四四十是四十

四四十是四十

這樣的話,相同的候選詞便都集中在了一起,從頭到尾掃描一遍便能算出各個(gè)候選詞的頻數(shù)和右鄰字信息熵。將整個(gè)語(yǔ)料逆序后重新排列所有的后綴,再掃描一遍后便能統(tǒng)計(jì)出每個(gè)候選詞的左鄰字信息熵。另外,有了頻數(shù)信息后,凝固程度也都很好計(jì)算了。這樣,我們便得到了一個(gè)無(wú)需任何知識(shí)庫(kù)的抽詞算法,輸入一段充分長(zhǎng)的文本,這個(gè)算法能以大致 O(n · logn) 的效率提取出可能的詞來(lái)。

對(duì)不同的語(yǔ)料進(jìn)行抽詞,并且按這些詞的頻數(shù)從高到低排序。你會(huì)發(fā)現(xiàn),不同文本的用詞特征是非常明顯的。下面是對(duì)《西游記》上冊(cè)的抽詞結(jié)果:

行者、師父、三藏、八戒、大圣、菩薩、悟空、怎么、和尚、唐僧、老孫、潰骸、什么、沙僧、太宗、徒弟、袈裟、妖精、玉帝、今日、兄弟、公主、玄奘、陛下、寶貝、性命、曉得、門(mén)外、妖魔、光蕊、觀音、花果山、土地、木叉、東土、變化、變做、伯欽、判官、多少、真君、齊天大圣、蟠桃、丞相、魏征、扯住、潰骸澳、抬頭、揭諦、言語(yǔ)、豬八戒、兵器、吩咐、安排、叩頭、清風(fēng)、哪吒、左右、美猴王、釘鈀、孩兒、女婿、金箍棒、二郎、東西、許多、奈何、人參果、收拾、近前、太保、明月、南海、水簾洞、門(mén)首、弼馬溫、李天王??

《資本論》全文:

商品、形式、貨幣、我們、過(guò)程、自己、機(jī)器、社會(huì)、部分、表現(xiàn)、沒(méi)有、流通、需要、增加、已經(jīng)、交換、關(guān)系、先令、積累、必須、英國(guó)、條件、發(fā)展、麻布、兒童、進(jìn)行、提高、消費(fèi)、減少、任何、手段、職能、土地、特殊、實(shí)際、完全、平均、直接、隨著、簡(jiǎn)單、規(guī)律、市場(chǎng)、增長(zhǎng)、上衣、決定、什么、制度、最后、支付、許多、雖然、棉紗、形態(tài)、棉花、法律、絕對(duì)、提供、擴(kuò)大、獨(dú)立、世紀(jì)、性質(zhì)、假定、每天、包含、物質(zhì)、家庭、規(guī)模、考察、剝削、經(jīng)濟(jì)學(xué)、甚至、延長(zhǎng)、財(cái)富、紡紗、購(gòu)買(mǎi)、開(kāi)始、代替、便士、怎樣、降低、能夠、原料、等價(jià)物??

《圣經(jīng)》全文:

以色列、沒(méi)有、自己、一切、面前、大衛(wèi)、知道、什么、猶大、祭司、摩西、看見(jiàn)、百姓、吩咐、埃及、聽(tīng)見(jiàn)、弟兄、告訴、基督、已經(jīng)、先知、掃羅、父親、雅各、永遠(yuǎn)、攻擊、智慧、榮耀、臨到、潔凈、離開(kāi)、怎樣、平安、律法、支派、許多、門(mén)徒、打發(fā)、好像、仇敵、原文作、名叫、巴比倫、今日、首領(lǐng)、曠野、所羅門(mén)、約瑟、兩個(gè)、燔祭、法老、衣服、脫離、二十、公義、審判、十二、亞伯拉罕、石頭、聚集、按著、禱告、罪孽、約書(shū)亞、事奉、指著、城邑、進(jìn)入、彼此、建造、保羅、應(yīng)當(dāng)、摩押、圣靈、懼怕、應(yīng)許、如今、幫助、牲畜??

《時(shí)間簡(jiǎn)史》全文:

黑洞、必須、非常、任何、膨脹、科學(xué)、預(yù)言、太陽(yáng)、觀察、定律、運(yùn)動(dòng)、事件、奇點(diǎn)、坍縮、問(wèn)題、模型、方向、區(qū)域、知道、開(kāi)始、輻射、部分、牛頓、產(chǎn)生、夸克、無(wú)限、軌道、解釋、邊界、甚至、自己、類似、描述、最終、旋轉(zhuǎn)、愛(ài)因斯坦、繞著、什么、效應(yīng)、表明、溫度、研究、收縮、吸引、按照、完全、增加、開(kāi)端、基本、計(jì)算、結(jié)構(gòu)、上帝、進(jìn)行、已經(jīng)、發(fā)展、幾乎、仍然、足夠、影響、初始、科學(xué)家、事件視界、第二、改變、歷史、世界、包含、準(zhǔn)確、證明、導(dǎo)致、需要、應(yīng)該、至少、剛好、提供、通過(guò)、似乎、繼續(xù)、實(shí)驗(yàn)、復(fù)雜、伽利略??

哦,對(duì)了,還有我最喜歡的,《人民日?qǐng)?bào)》 2000 年 4 月新聞版的抽詞結(jié)果:

發(fā)展、我們、經(jīng)濟(jì)、主席、江澤民、領(lǐng)導(dǎo)、建設(shè)、關(guān)系、教育、干部、企業(yè)、問(wèn)題、主義、政治、群眾、改革、政府、思想、加強(qiáng)、臺(tái)灣、地區(qū)、北京、總統(tǒng)、世界、記者、代表、民族、組織、歷史、訪問(wèn)、原則、努力、管理、今天、技術(shù)、市場(chǎng)、世紀(jì)、堅(jiān)持、社會(huì)主義、財(cái)政、江澤民主席、增長(zhǎng)、積極、精神、同志、雙方、自己、友好、領(lǐng)導(dǎo)干部、進(jìn)一步、基礎(chǔ)、提高、必須、不斷、制度、政策、解決、取得、表示、活動(dòng)、支持、通過(guò)、研究、沒(méi)有、學(xué)習(xí)、穩(wěn)定、舉行、歡迎、農(nóng)村、生活、促進(jìn)、科技、投資、科學(xué)、環(huán)境、領(lǐng)域、公司、情況、充分??

標(biāo)簽: 社會(huì)語(yǔ)言學(xué) SNS 文本數(shù)據(jù)挖掘 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:教你三步優(yōu)化wordpress博客

下一篇:做合格的網(wǎng)站SEO診斷 不要一味吹毛求疵