要找到商機金礦,得先學會運用資料採礦

文/iThome (記者) 2010-04-02
資料採礦能協助企業從龐大資料中找出具成功潛力的「現象」,但你必須懂得運用資料採礦才有辦法將現象轉化為商機。
「使用資料採礦,似乎可以增加收益」、「聽說某公司藉由資料採礦找到了隱藏的定律,並運用在業務上」──。這樣的論調流行了一段時日。

資料採礦不是萬靈丹
最出名的就是「購買紙尿布的顧客,連同啤酒一起購買的可能性很高。某家超市藉由這個在資料採礦中發現的定律,將這兩樣商品擺在一起,大幅提升了業績」。
上面的傳述,造成有一段時期資料採礦被當成是萬靈丹一樣的寶物。在這樣的背景下,系統集成商想賣系統整合、出版社想促銷相關書籍的意圖不言可喻,不過活絡 的氣氛至今已逐漸沉寂下來。
期望過高,導致實際引進資料採礦的使用者,失望也很大。
然而資料採礦畢竟不像那些被遺忘在歷史洪流中的無用工具,不再會被使用。
資料採礦與傳統統計分析的不同
學習資料採礦技巧時,一定會碰到一個疑問,那就是分不清楚資料採礦與傳統統計分析之間的差異。
雖然被稱為資料採礦,但並沒有所謂「資料採礦」的分析技巧。資料採礦是一種行為的總稱,其中存在著許多種分析技巧,根據分析的目的不同而被選擇使用。

  • 迴歸分析
  • 決策樹分析
  • 群集分析
  • 類神經網路

大致上這些是常聽到的分析技巧。資料採礦就是綜合上述技巧來分析資料。其中的迴歸分析和決策樹分析,並不是什麼新的技巧,在基本的統計分析中也會運用到。 很多人可能在高中或大學時已經接觸過。
資料採礦的本質不在於技巧的翻新,而是在於準備資料的質與量上。資料採礦使用極為龐大的資料量來執行分析,使得分析的目的也變得不同。
以往的步驟是「那麼,開始準備資料吧!」然後委託市調公司蒐集、購買資料,或是自己做問卷調查。這個步驟並沒有什麼錯,方法論本身也是對的,可以得到頗為穩定的結果。但是在這個方法中,只要超出「蒐集到的資料」的範圍,就無法進行分析行為了。
當然,執行分析的人會盡可能大範圍地蒐集資料,有經驗的分析人員會判斷篩選適當的資料,以導出正確的結果。
問題在於蒐集資料時的取捨選擇具有很大的限制,很難發現或驗證出超出理解範圍之外的定律。
這是因為,一開始就不具備能夠導出理解範圍之外定律的資料。
這樣的特性,造成統計分析變成只是專家在用的工具。而且,其使用目的也屬於事後驗證型(後面將會說明)。
儲存資料的成本變低了
大環境的變化,使得情況劇烈改變。資訊器材大量普及而且成本降低了,尤其是運算設備和記憶設備。
傳統上統計分析的一個弱點是,必須先建構分析才有辦法開始蒐集資料。在這個過程中再篩選資料,但畢竟資料蒐集需要時間,於是會有時間上的落差。
不過,資訊化的進展,使得街頭巷尾到處都有資訊設備。原本,資訊設備是用在留下使用紀錄並加以保存的,於是便產生了利用其來補足資訊貧乏性、降低資訊蒐集 成本的想法。
在資料採礦之前,這樣的想法之所以無法獲得認同,是因為儲存資料的成本非常高。
不論是主記憶設備、或是輔助記憶設備,單價都被以位元組為單位精確地計算,系統工程師和程式設計師必須竭盡所能壓低價格來架構系統。
公元兩千年的電腦千禧年危機,就是因此而產生的。用現在的成本概念來看,實在很難理解當初為何只取西元後兩碼做為變數的規格。因為這種做法只能夠節省少量的位元組,事後卻帶來龐大的處理成本和工作時數。不過話說回來,即使當時容許採用全部的西元年數來計算,還是有必要抑制資訊量。
在那樣的情況下,任誰也不會想到要保存處理過程中所有的資料。因為連馬上用得到的資料都無法全部儲存,怎麼可能保存那些不知道什麼時候才會用到的資料呢。
但是資訊化的快速發展,使得資訊設備大量普及,資料儲存成本如同幾何級數般地下降。即使初看無用的資料,現在也可以暫時保存於電腦上。
只要可以儲存,就會有無限多的資料想要儲存。儲存下來的銷售紀錄,或許以後可以再拿出來檢視、遇到顧客抱怨時也可以馬上調資料出來。
這樣的理由造成企業等等組織團體,開始儲存「不知道用不用得到的資料」。而且數量越來越龐大,毫無停止的跡象。今後諸如政府機關各種公文的電子化,必須義 務保存一定的年限,整體社會儲存的資料量只會繼續增加。幾乎可以說是「資訊爆炸」了。
從龐大的資料中淘金
有些人對資訊爆炸的情形抱持負面的看法並提出警告,但凡事都有正反兩面,有壞的必定有好的。資料儲存量無預警的增加,對於分析人員而言卻是個大好消息。這代表的是,可以自由使用的資料量大幅增加,而且唾手可得。
如同上述,傳統統計分析的一個弱點是必須先蒐集基本的資料。現在想要的分析結果,非得先從蒐集資料開始。資訊密集社會化的進展,所需資料很可能早就被儲存在某處。交換或交易資料的方法如果也能標準化,那麼需要的資料就可以即時得到,並立刻進行分析。這代表的是,消除了資料種類的相關限制。

  • 必須蒐集需要的資料
  • 對所蒐集資料進行分析,計算量有上限

上面的兩個原因,造成以往必須從有限的資料中取得分析結果。但是現在蒐集資料和使用資料的成本大幅下降,對於現存的資料無論取用多少,也不會增加太多的工作量。而且相較於所提高的分析精準度,增加的成本和工作量甚至可以忽略。
如果演算設備沒有充分的能力去處理,擁有再多的資料量也只是枉然。資料量和演算能力就像是車子的兩輪,缺了一個就無法適當地利用資料。現在已經是可以便宜得到兩者的時代了,現在的環境已經可以奢侈地去使用看似毫無關聯或意義的資料來進行分析。
這樣一來就有可能發現超越過去經驗法則的規則和定律。
有能力的企業經營者,也許早就有這樣的經驗了。優秀的企業經營者,往往能夠發現大家都還沒注意到的定律,也就是能夠把不相關的資訊連結起來,利用在促進自己的事業上。
相對於以往必須依靠直覺和經驗等等天賦技巧,資料採礦宣示了大家都可以運用的可能性,這一點具有革新的意義。

Please follow and like us:

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *