你(nǐ)的公司是否仍然在努力理(lǐ)解大(dà)數據是什(shén)麽,以及如何管理(lǐ)嗎?這(zhè)裏有6個關于大(dà)數據的誤區(qū),行業專家将幫助你(nǐ)把真相從(cóng)虛構的大(dà)數據領域中分離出來(lái)。
你(nǐ)的組織是否在考慮分析數據的最佳方式?以下(xià)是在你(nǐ)采用(yòng)大(dà)數據分析之前,需要注意的有關大(dà)數據的6個誤區(qū)。
雲計(jì)算(suàn)的應用(yòng),更快(kuài)的數據處理(lǐ)速度,以及從(cóng)物聯網輸入大(dà)量的數據,這(zhè)些(xiē)意味着,企業現(xiàn)在正在收集前所未見的數據量。現(xiàn)在大(dà)數據比以往任何時(shí)候都大(dà)。但(dàn)是如何組織、處理(lǐ)和(hé)理(lǐ)解數據仍然是許多組織面臨的一個主要挑戰。
你(nǐ)的公司是否仍然在努力理(lǐ)解大(dà)數據是什(shén)麽,以及如何管理(lǐ)嗎?這(zhè)裏有6個關于大(dà)數據的誤區(qū),行業專家将幫助你(nǐ)把真相從(cóng)虛構的大(dà)數據領域中分離出來(lái)。
1.大(dà)數據意味着“很(hěn)多”數據
目前,大(dà)數據已經成爲一個流行詞。但(dàn)人們通常對(duì)它真正的含義還是不清楚。有些(xiē)人将大(dà)數據簡單地認爲是大(dà)量的數據。但(dàn)是,這(zhè)并不完全正确,它比這(zhè)稍微複雜(zá)一些(xiē)。大(dà)數據是指一個數據集,無論是結構(如數據表)或非結構化(如元數據從(cóng)電子郵件)結合的數據,如社會(huì)媒體分析或物聯網數據,形成一個更大(dà)的故事(shì)。大(dà)數據故事(shì)說明(míng)組織很(hěn)難用(yòng)傳統的分析技術來(lái)捕獲發生的趨勢。
豐田研究院的數據研究總監吉姆?阿德勒表達了(le)一個很(hěn)好(hǎo)的觀點:“數據也(yě)有質量。這(zhè)就像水(shuǐ)一樣:玻璃容器中的水(shuǐ)是非常易于管理(lǐ)。但(dàn)是,如果混雜(zá)在洪水(shuǐ)中,這(zhè)将是壓倒性的災害。”他(tā)說,“在數據分析系統中,工(gōng)作(zuò)在一台機器的的數據将被沖走時(shí),其數據規模将增長100或1000倍。所以,當然,原型雖小(xiǎo),但(dàn)其架構卻很(hěn)大(dà)。”
2.數據需要清潔
“最大(dà)的誤區(qū)就是你(nǐ)必須要有幹淨的數據進行分析。”BeyondCore公司首席執行官阿裏吉特?森古普塔說,“沒有人有幹淨的數據,必須将數據進行清理(lǐ),否則分析是行不通的。這(zhè)是一個瘋狂的想法。你(nǐ)要做的就是進行一個足夠好(hǎo)的分析。你(nǐ)要分析所有的數據,盡管這(zhè)些(xiē)數據是肮髒的,這(zhè)隻說明(míng)你(nǐ)有數據質量問題。我可以告訴你(nǐ)一些(xiē)模式,盡管數據存在質量問題,但(dàn)完全可以進行正常分析。現(xiàn)在,你(nǐ)可以集中進行數據質量工(gōng)作(zuò),隻是提高(gāo)數據可以得到(dào)稍微好(hǎo)一點的洞察力。”
InOutsource商業智能(néng)和(hé)分析總監梅根?布茨梅因對(duì)此表示贊同,“很(hěn)多時(shí)候,企業就會(huì)将這(zhè)些(xiē)工(gōng)作(zuò)能(néng)拖就拖,因爲他(tā)們認爲數據是不幹淨的,這(zhè)是沒有必要的。部署的分析應用(yòng)程序将可以找到(dào)數據的薄弱環節,”她(tā)說。“一旦這(zhè)些(xiē)問題已經确定,清理(lǐ)計(jì)劃可以投入到(dào)位。然後,分析應用(yòng)程序可以利用(yòng)一種機制,加大(dà)清理(lǐ)力度,并監測進展情況。”
布茨梅因說。“一旦你(nǐ)把這(zhè)些(xiē)數據整合在一起,你(nǐ)将在一個應用(yòng)程序中賦予它生命的視(shì)覺,你(nǐ)可以看(kàn)到(dào)這(zhè)些(xiē)彙集在一起的數據的關聯,你(nǐ)會(huì)很(hěn)快(kuài)看(kàn)到(dào)你(nǐ)的資料不足。”她(tā)說,“你(nǐ)可以看(kàn)到(dào)數據的問題在于要提供一個清理(lǐ)數據的基準。”
3.等待,讓你(nǐ)的數據完美(měi)
你(nǐ)不應該等待清理(lǐ)你(nǐ)的數據,這(zhè)裏還有一個原因,森古普塔說,“在你(nǐ)完全清除數據之後,這(zhè)可能(néng)需要三個月的時(shí)間,然而三個月後,這(zhè)些(xiē)數據已經陳舊過時(shí)了(le)。”因此,這(zhè)些(xiē)信息将不再适用(yòng)。
森古普塔表示,第一州際銀行的喬希?巴特曼在會(huì)議(yì)提出了(le)一個重要觀點。喬希展示了(le)他(tā)是如何運行分析,發現(xiàn)問題,分析變化,重新運行分析的。他(tā)說,“你(nǐ)看(kàn),我的分析時(shí)間隻有大(dà)約四到(dào)五分鐘(zhōng)。所以,如果我可以運行分析,發現(xiàn)問題,解決問題,再重新進行分析,并在四、五分鐘(zhōng)後查看(kàn)報(bào)告,改變如何處理(lǐ)分析的方法。”
森古普塔用(yòng)編碼來(lái)比喻那些(xiē)舊方式。“我的一切都是正确的,然後我進行編碼。但(dàn)現(xiàn)在,每個人進行編碼都不太靈活。”他(tā)說。“你(nǐ)寫好(hǎo)程序之後,你(nǐ)必須要測試它,并查看(kàn)如何能(néng)使它更好(hǎo),那麽等它變得更好(hǎo)之後。世界發生了(le)變化,人們仍然采用(yòng)的是舊的做事(shì)方法。”
4.數據湖
數據湖是持有大(dà)量的原始結構化和(hé)結構化數據的松散的存儲庫,經常在大(dà)數據的背景下(xià)提到(dào)。
唯一的問題是,盡管他(tā)們是如何經常被引用(yòng),但(dàn)它們卻不存在,阿德勒說,“一個組織的數據不被倒入一個數據湖中。這(zhè)是精心策劃的一個部門(mén)的數據庫。鼓勵集中使用(yòng)專業知(zhī)識。他(tā)們還提供了(le)良好(hǎo)的數據治理(lǐ)和(hé)合規性所需的問責性和(hé)透明(míng)度。”
5.分析數據是昂貴的
如果假定在數據分析工(gōng)具涉及一些(xiē)費用(yòng)的話(huà),你(nǐ)可能(néng)會(huì)害怕獲得數據。而可以告訴你(nǐ)的有好(hǎo)消息是,如今有許多免費的數據工(gōng)具,任何人都可以開(kāi)始使用(yòng)這(zhè)些(xiē)工(gōng)具來(lái)分析大(dà)數據。
同時(shí),森古普塔表示,當今雲計(jì)算(suàn)的低(dī)成本意味着“你(nǐ)真的可以做那些(xiē)以前從(cóng)來(lái)不可能(néng)實現(xiàn)的的事(shì)情。”
6.機器算(suàn)法将取代人類分析
森古普塔認爲在分析大(dà)數據方法有一個有趣的二分法。“有人說,解決這(zhè)個問題需要成千上(shàng)萬的數據科學家來(lái)分析解決,随後,又有人說,采用(yòng)機器學習就可以做到(dào)這(zhè)一切。這(zhè)将是完全自(zì)動的。”
但(dàn)是,桑古塔并不認爲這(zhè)些(xiē)都是合适的解決方案。“沒有足夠的數據科學家,成本将快(kuài)速上(shàng)升。”他(tā)說,“此外(wài),企業用(yòng)戶有多年的域名登錄經驗,并有着對(duì)他(tā)們業務的直覺。當你(nǐ)請(qǐng)來(lái)一個數據科學家,并認爲他(tā)會(huì)搞定這(zhè)些(xiē)工(gōng)作(zuò),并告訴你(nǐ)該怎麽做。這(zhè)實際上(shàng)創造了(le)一個确切的錯誤,數據科學家們往往無法無法足夠了(le)解企業的業務。”
“完美(měi)”的數據科學家,是那些(xiē)準确理(lǐ)解具體業務如何運作(zuò),以及其數據是如何工(gōng)作(zuò)的,這(zhè)是一個誤區(qū)。森古普塔說,“這(zhè)樣的人根本不存在。”
在現(xiàn)實中,森古普塔說,“大(dà)多數數據科學項目實際上(shàng)沒有得到(dào)實施,因爲它是如此艱難,需要幾個月得到(dào)完成,而當它完成的時(shí)候,你(nǐ)所關心的問題是已經陳舊過時(shí)了(le)。”
但(dàn)是,也(yě)有過于依賴機器學習問題。“機器學習隻是給出一個答(dá)案,但(dàn)并沒有解釋。它告訴人們該怎麽做,而不是爲什(shén)麽要那樣做,”他(tā)說。“人們不喜歡别人告訴他(tā)該怎麽做,尤其是神奇的機器。”他(tā)說,其關鍵是不隻是答(dá)案,而是其解釋和(hé)建議(yì)。
一方面,他(tā)說,數據科學家将變得越來(lái)越專業化,而這(zhè)是真正困難的問題。“想一想各機構和(hé)企業開(kāi)始建設了(le)數據處理(lǐ)部門(mén)和(hé)一些(xiē)處理(lǐ)部門(mén)。世界500強企業也(yě)有數據處理(lǐ)部門(mén)“或數字加工(gōng)部門(mén)。但(dàn)他(tā)們基本上(shàng)變成了(le)Excel,Word和(hé)PowerPoint。”盡管如此,人們仍然是數據和(hé)數字處理(lǐ)方面的專家。
“如果我去摩根士丹利,相信我,那些(xiē)數據處理(lǐ)和(hé)數字處理(lǐ)方面的專家仍然存在。他(tā)們隻是有着不同的名稱和(hé)不同的工(gōng)作(zuò),但(dàn)在真正的情況下(xià),這(zhè)些(xiē)人仍然存在,但(dàn)80%-90%的專家已經轉移到(dào)Excel,Word和(hé)PowerPoint方面,這(zhè)是全球在大(dà)數據方面應該發展的主要原因。”