在线免费中文字幕视频免费观看,亚洲欧美自拍另类卡通图区,国产精品日韩专区欧美专区

　　踐行數(shù)據(jù)的商業(yè)價(jià)值，理解大數(shù)據(jù)的本質(zhì)，從哪里開(kāi)始?應(yīng)該從認(rèn)識(shí)不確定性開(kāi)始。

　　什么是不確定性

　　什么是不確定性?打個(gè)比方，老王、老李做一個(gè)游戲“猜花生米”。老王出一只拳頭，讓老李猜里面是空的還是抓了一?；ㄉ?。這個(gè)事件對(duì)老王而言是確定性事件，因?yàn)槔贤踝约河袥](méi)有抓花生米，他心知肚明。這個(gè)事件對(duì)猜拳的老李來(lái)說(shuō)就是不確定性事件，因?yàn)槔侠顭o(wú)法對(duì)老王的猜拳決策做出絕對(duì)準(zhǔn)確的預(yù)測(cè)。

　　在實(shí)際生活中，不確定性事件廣泛存在。事實(shí)上，人生就是由一系列或大或小的不確定性事件構(gòu)成的。婚姻選擇有著極大的不確定性。一對(duì)相愛(ài)的男女是否應(yīng)該接受對(duì)方成為自己的終身伴侶，這是一個(gè)重大選擇。這個(gè)選擇的后果是什么?是幸福的遠(yuǎn)航，還是痛苦的開(kāi)始?這有很大的不確定性。為了極小化這種不確定性，青年男女往往需要一場(chǎng)死去活來(lái)的戀愛(ài)，以便充分暴露雙方的優(yōu)點(diǎn)和缺點(diǎn)，以減少未來(lái)婚姻中的不確定性。但是，無(wú)論你如何了解，這種不確定性仍然存在。

　　世界到處都充滿(mǎn)了不確定性，那我們對(duì)未來(lái)的世界認(rèn)識(shí)是不是不可知的?答案是否定的。世界上很多事情是難以用確定的公式或者規(guī)則來(lái)表示，但是這種不確定性并不是無(wú)規(guī)律可循，這個(gè)時(shí)候就需要用到統(tǒng)計(jì)學(xué)中的概率模型來(lái)描述。在概率論的基礎(chǔ)上，信息論鼻祖香農(nóng)博士建立了一套完整的理論，將世界的不確定性和信息聯(lián)系起來(lái)，這就是信息論，用來(lái)解釋不確定性的世界。

　　信息可消除不確定性

　　什么是信息?在看《暗時(shí)間》時(shí)(推薦大家看看)，里面討論了一些信息論相關(guān)的內(nèi)容，于是就嘗試搜索信息論和不確定性的關(guān)系，結(jié)果發(fā)現(xiàn)香農(nóng)說(shuō)了這么一句話(huà)：“信息是用來(lái)消除不確定性的東西”。信息論的鼻祖果然是鼻祖，一句話(huà)解釋了信息。

　　信息是否可以被度量?如何度量信息?1948年，香農(nóng)提出了“信息熵”這個(gè)概念，解決了信息度量的問(wèn)題。他指出，信息量與不確定性有關(guān)：假如我們需要搞清楚一件非常不確定的事情，或者我們一無(wú)所知的事情，就需要收集大量的信息。相反，如果我們對(duì)某件事已經(jīng)有了較多的了解，那么不需要太多的信息就能把它搞清楚。從這個(gè)角度來(lái)看，信息量的度量就是不確定性的多少。

　　舉例說(shuō)明，就拿互聯(lián)網(wǎng)廣告來(lái)說(shuō)，在門(mén)戶(hù)網(wǎng)站上投放展示類(lèi)的品牌廣告，點(diǎn)擊率是非常低的。因?yàn)閷?duì)于受眾用戶(hù)，廣告投放時(shí)幾乎是隨機(jī)猜測(cè)用戶(hù)的需求，很不準(zhǔn)確。而搜索廣告因?yàn)橛杏脩?hù)輸入的關(guān)鍵詞，準(zhǔn)確率會(huì)大幅度提高，至于提高多少，取決于關(guān)鍵詞所提供的信息量。這就是搜索廣告所賺到的廣告費(fèi)用要高出展示廣告兩個(gè)數(shù)量級(jí)。通過(guò)這個(gè)例子，也能說(shuō)明，信息時(shí)代，誰(shuí)掌握了更多的信息，誰(shuí)就掌握了更多財(cái)富的可能性。

　　大數(shù)據(jù)與信息的關(guān)系

　　了解大數(shù)據(jù)的人，都可能知道，大數(shù)據(jù)有5V特點(diǎn)，這是IBM提出來(lái)的:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。但從信息論的角度，大數(shù)據(jù)通常是具備三個(gè)主要特征，數(shù)據(jù)量大，多樣性和完備性。

　　1、大數(shù)據(jù)的體量足夠大

　　大數(shù)據(jù)最明顯的特點(diǎn)就是體量大，這一點(diǎn)無(wú)論是內(nèi)行還是外行都認(rèn)可，沒(méi)什么異議。我們國(guó)家僅僅北京的國(guó)家超級(jí)大數(shù)據(jù)中心，占地面積就8萬(wàn)平方米，包含9棟數(shù)據(jù)中心機(jī)房和1棟感知體驗(yàn)中心。

　　但是，過(guò)去由于數(shù)據(jù)量不夠，即使用了數(shù)據(jù)，依然不足以消除不確定性，因此數(shù)據(jù)的作用其實(shí)有限，很多人忽視它的重要性是必然的，數(shù)據(jù)的價(jià)值也就被嚴(yán)重低估。在那種情況下，哪個(gè)領(lǐng)域先積攢下足夠的數(shù)據(jù)，它的研究進(jìn)展就顯得快一些。語(yǔ)音識(shí)別領(lǐng)域，就是因?yàn)樵缙诜e攢了大量的音頻數(shù)據(jù)，才可以捷足先登，第一批嘗到了數(shù)據(jù)驅(qū)動(dòng)方法的甜頭。

　　2、大數(shù)據(jù)的多維度足夠多

　　眾所周知，Google的人工智能已經(jīng)走在了前沿，也是目前全球估值最高的公司。但是，無(wú)論是AlpahaGo、無(wú)人駕駛還是IT醫(yī)療公司Calico，都是建立在多維度的大數(shù)據(jù)基礎(chǔ)之上的。例如關(guān)于“食物”這個(gè)問(wèn)題，Google會(huì)利用用戶(hù)輸入的信息，收集所有相關(guān)的信息。不僅涉及到食物的做法、吃法、成分、營(yíng)養(yǎng)價(jià)值、價(jià)格、問(wèn)題來(lái)源的地域和時(shí)間等維度。

　　大數(shù)據(jù)的多維度，統(tǒng)計(jì)學(xué)中稱(chēng)為相關(guān)性，信息論中稱(chēng)為互信息?；バ畔ⅲ谛畔⒄撝校瑢?shí)現(xiàn)了對(duì)信息相關(guān)性的度量。比如“央行調(diào)整利率”和“股市短期波動(dòng)”的互信息很大，這就證實(shí)了兩者具備強(qiáng)相關(guān)性。第二個(gè)視角，交叉驗(yàn)證。舉例說(shuō)明，夏天的時(shí)候，“空氣濕度高”和“24小時(shí)內(nèi)要下雨”之間的互信息比較大。也就是說(shuō)空氣濕度高，24小時(shí)下雨的可能性比較大，但并不能說(shuō)空氣濕度高就一定會(huì)在24小時(shí)內(nèi)下雨。還需要結(jié)合氣壓信息，云圖信息等其他緯度的信息，來(lái)交叉驗(yàn)證“24小時(shí)內(nèi)要下雨”這件事情，那么預(yù)測(cè)的準(zhǔn)確性要高的多。

　　3、大數(shù)據(jù)的完備性

　　要理解它，需要介紹信息論中的一個(gè)重要概念—交叉熵。它可以反映兩個(gè)信息源之間的一致性，或者兩種概率模型之間的一致性。當(dāng)兩個(gè)數(shù)據(jù)源完全一致的時(shí)候，其交叉熵為0，當(dāng)它們相差很大時(shí)，它們的交叉熵也很大。因此，所有數(shù)據(jù)驅(qū)動(dòng)的方法，建立模型使用的數(shù)據(jù)和使用模型的數(shù)據(jù)需要有一致性。

　　抽樣調(diào)查方式都是采用抽取有限的樣本進(jìn)行統(tǒng)計(jì)，從而得出整體的趨勢(shì)。抽樣的核心原則是隨機(jī)性，不隨機(jī)就不能真實(shí)地反應(yīng)整體的趨勢(shì)。但是要做到隨機(jī)性是很難的。例如電視收視率調(diào)查，要從不同階層隨機(jī)找被調(diào)查的人，但高學(xué)歷高收入的大忙人們普遍拒絕被調(diào)查，他們根本就不會(huì)因?yàn)閹讉€(gè)蠅頭小利而浪費(fèi)時(shí)間，電視調(diào)查的結(jié)果就可想而知。

　　所以，在過(guò)去，任何使用概率統(tǒng)計(jì)模型都會(huì)有很多小概率事件是覆蓋不到的。大數(shù)據(jù)時(shí)代以前，這是數(shù)據(jù)驅(qū)動(dòng)方法的死穴。

　　在大數(shù)據(jù)時(shí)代，在某個(gè)領(lǐng)域獲得數(shù)據(jù)的完備性還是有可能的，Google的機(jī)器翻譯系統(tǒng)就能很好的要利用大數(shù)據(jù)的完備性。通過(guò)數(shù)據(jù)學(xué)到了不同語(yǔ)言之間很長(zhǎng)句子成分的對(duì)應(yīng)，然后直接把一種語(yǔ)言翻譯成另一類(lèi)，前提條件就是使用的數(shù)據(jù)必須是比較全面地覆蓋中文、英文，以及其他各種語(yǔ)言的所有句子，也就是說(shuō)具備兩種語(yǔ)言之間翻譯的完備性。

　　當(dāng)數(shù)據(jù)的完備性具備了以后，就相當(dāng)于訓(xùn)練模型的數(shù)據(jù)集合和使用這個(gè)模型的測(cè)試集合是同一個(gè)集合，或者是高度重復(fù)的。這樣的數(shù)據(jù)驅(qū)動(dòng)方法才是有效的。

　　由此可見(jiàn)，大數(shù)據(jù)的科學(xué)基礎(chǔ)是信息論，它的本質(zhì)就是利用信息消除不確定性。

　　——以上內(nèi)容部分是源自于吳軍老師《智能時(shí)代》的讀書(shū)筆記。

国产中文字幕无线观看,美女视频黄频大全视频黄A,精品欧美一区二区在线观看,国产高清亚洲经典婷婷,久久香蕉超碰97国产精品,亚洲国产成人在线网站,av天堂午夜精品一区

大數(shù)據(jù)思維養(yǎng)成從認(rèn)識(shí)大數(shù)據(jù)的本質(zhì)開(kāi)始

評(píng)論

相關(guān)閱讀

李瑋：手握大數(shù)據(jù) 馳騁物聯(lián)網(wǎng)

“工業(yè)互聯(lián)網(wǎng)”條件下新一代控制系統(tǒng)的發(fā)展趨勢(shì)

從工業(yè)軟件轉(zhuǎn)型工業(yè)互聯(lián)網(wǎng)平臺(tái)，“朗坤智慧”已接入35萬(wàn)臺(tái)設(shè)備

新基建之?dāng)?shù)據(jù)中心2020

網(wǎng)絡(luò)數(shù)據(jù)安全標(biāo)準(zhǔn)體系：讓“新基建”更安全

2020年大數(shù)據(jù)開(kāi)發(fā)行業(yè)就業(yè)趨勢(shì)

六大案例解析電力行業(yè)如何應(yīng)用大數(shù)據(jù)

曙光中標(biāo)長(zhǎng)江電力!打造強(qiáng)大處理能力數(shù)據(jù)中心

萬(wàn)國(guó)數(shù)據(jù)董事長(zhǎng)黃偉：數(shù)據(jù)中心要為新基建“打好底”

“電力聲音”是大數(shù)據(jù)時(shí)代重要依據(jù)

熱點(diǎn)推薦

熱點(diǎn)圖片

熱點(diǎn)新聞