- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-10來源:誰的替代品瀏覽數:267次
《數據安全法》對數據的定義是,“指任何以電子或者其他方式對信息的記錄。”
一千個人眼里有一千個哈姆雷特。同樣的,一千個人對數據有一千種理解。
引言
在跟客戶交流過程中,遇上好學的,偶爾被被問起,“數據和信息有什么區別?”
大部分時間,我基本上都用“信息和數據并無太大區別”來搪塞。對方聽罷,盡管不繼續追問,但也不免露出困惑以及懷疑的神情。
隨著數字化時代來臨,(大)數據、信息等詞匯幾乎走入了老百姓的日常生活。
前幾天跟一個新項目交流數據方法。一位初次接觸的同事聽完后,非常直接的評價,“感覺花活多了些。”
如果回到十年前,這樣的評價足以讓我emo好幾天。好在如今經歷了歲月的磨礪之后,內心已經足夠強大。
記得我當時直接回復對方,“好在我在會前了解到您是銷售,而且能夠坐下來耐心聽我講。你這樣的評價不會讓我生氣。不過我依然要非常嚴肅的告訴您,數據工作是一項非常專業的工作,而且數據也是一門非常嚴謹的科學。千萬不要以為聽聽大眾媒體就自以為掌握了。”我是笑著回應對方的。
無論是數據還是信息,每個人都似乎“略懂”,但又似乎不懂。于是大家總期望有“大咖”用大白話能把問題講得很清楚,一聽就懂的那種。
顯然我還遠沒達到大咖級別的造詣,因此沒指望讓朋友們一聽就懂。不過,還是決定用最啰嗦的方式聊聊數據,以及數據與信息的關系。
一、數據
隨著科技不斷進步,人類處理數據能力不斷提升,數據外延在不斷擴大。這正是造成大家對數據“似懂非懂”的根本原因。

階段一、以量化為目的的數據
遠古祖先的結繩記事,這便是數據的最初形態。除了研究純理論的數學外,每一個數字都代表著現實生活中的特定含義。從我們熟悉個人體重、年齡、收入等,到國家的GDP,企業的銷售收入、利潤,空氣質量PM值,量化的數據無處不在。
在企業里,當老板理直氣壯的對你說,“別給我扯這么多,拿數據說話!”意味著用冷冰冰的數據,銷售額、利潤等,來決定你在公司的命運。
看得出來,人類在對量化的數據計算本身方面,并不需要太多的技術含量,并且也都基本上是通過人工為主來完成。東方的算盤、西方的計算尺等計算工具(還稱不上計算器),對人類計算幫助有限。
階段二、以結構化、標準化記錄為特征的數據
在計算機出現以前,已經有了結構化數據的最初形態,那就是財務賬本。

(圖片來自網絡,侵刪)
可以說,計算機充分發揮了這一形式的優點。這里不打算科普信息系統的數據庫知識,從來不接觸的朋友可以想想Excel文件表格的好處。
簡單來說,表格的每一行代表了被記錄的對象(員工、物料、一次出入庫等等)。每一欄代表了被記錄對象的核心內容。之所以說是核心內容,只要在表頭寫明“工號、姓名、性別、年齡、工資”等即可,具體的每一行不需要重復說明。
這樣做的目的是,讓計算機可以針對預定格式的數據按照預定的程序邏輯進行復雜、而簡單的各種運算處理。
有人說,Excel是最反人類的office格式。不信的話,領導上臺作報告時,朋友們可以替領導準備一份Excel文件形式的報告驗證一下。不過挨K了,不能算在我頭上。
這便是人們常說的“小數據”,相對于“大數據”而言的。因為過去絕大部分的結構化數據都是依賴于人手工一個字一個字從鍵盤錄入的,“能省則省”,自然“小”。
階段三、一切形式的記錄
《數據安全法》對數據的定義是,“指任何以電子或者其他方式對信息的記錄。”
毫無疑問,這是當今對數據最新、最權威的定義,也是最寬泛的定義。
就我自己的體會而言,第一次看到這個定義時,認為“其他方式”的限定詞過于嚴謹。
畢竟,我們當前絕大部分計算機直接處理的信息都是以電子形式存在。其他物理世界的實物(含聲、光等)也都是通過技術轉化為電子形式之后,再交給計算機進行處理。
但實際上,隨著技術進一步發展,非電子形式更先進的記錄方式勢必被發明。例如,據說科學家們已經開始探索使用人造DNA來存儲信息。當然,包括人類在內的生物體所攜帶的天然的(相對于人造的)DNA本身也是一種“數據”。
另外,過去已經存在的記錄,包括數千年前的西班牙巖畫、殷墟的甲骨文,或許未來也可以作為存儲,被計算機直接進行處理。
不可否認,如果將該定義進行簡化為“數據指對信息的記錄”,結果又如何呢?
看不懂!
不可回避的,只能聊聊數據和信息的關系。
二、數據與信息
第一次將“數據”和“信息”兩個概念放在一起對比,應該是十五六年前的事情了。當時公司開始數據治理工作,從外面請來的顧問總喜歡拿體溫的例子來科普數據、信息、知識和智慧的關系。
由于年代久遠,無法找出原始材料,只能手繪如下:

說實話,作為宣講材料的引子,除了能夠炫耀一下自己既專業又“親民”以外,并無更多的作用。
后來知道了,這個原型來自于DIKW模型(詳細見文章《DIKW模型,數據供應鏈中的基礎生產工藝》)。
人類的認知過程是一氣呵成的,甚至不需要嚴格的區分數據、信息和知識。舉個例子,我們是不是經常把“第一次世界大戰爆發于1914年6月28日。”之類的歷史事件當作歷史知識呢?如果我非得說不是,你可能會說我吃飽撐的。
但歷史上,“吃飽撐的”的人不知我一個。除了把DIKW模型寫成詩歌作者艾略特之外,還有被譽為“信息論之父”的香農。
《信息簡史》一書介紹信息論時,引用了香農的一句話:“對于信息論的研究而言,訊息的‘意義’基本上無關。”
進而解釋,“這些訊息往往都帶有意義,也就是說,根據某種體系,他們指向或關聯了特定的物理或概念實體(對象)。”
從其他材料中了解到:
香農區別了信息傳播的三個層次:A層:傳播符號如何能夠被準確地發射(技術問題);B層:被發射的符號如何能夠準確地傳遞意圖中的意義(語義學問題);C層:被接受的意義如何有效地以意圖中的方式影響行為(效果或行為問題)。
可以看出,香農從技術的角度把人類認知過程拆解成三個“分解動作”,A層對應著數據;B層對應著信息;C層對應著知識。
香農在著名《通信的數學理論》論文引言里寫道:“通信的基本問題就是在一個地方復現在另一個地方選定的消息,這一復現可能是準確的,也可能是近似的。”
我沒有數學功底,沒有勇氣看論文正文。但至少可以猜測道,香農把數據和信息區分開來(近似如此),其目的是解決信息載體的“傳遞”的技術問題。
因此,不妨將《數據安全法》中關于“數據指對信息的記錄”按照類似方式來理解。
后記
盡管花了許多時間來澄清和理解數據和信息的定義,但我依然認為,對于非專業的朋友,并不需要可以“從技術的角度“去理解數據和信息的區別。
下一篇:數字化轉型升級方案...