引言
他們說,數(shù)據(jù)是新的石油;數(shù)據(jù)是新的黃金。很好,石油的價格是每桶80美元,黃金是每盎司2300美元。數(shù)據(jù)的成本是多少?
這是一個毫無意義的問題。
驅(qū)動油價的因素可能很復(fù)雜,但在交易標準:數(shù)量、位置、品位和日期上有一個公認的共識。有些交易所指定了WTI、布倫特原油和迪拜等基準合約的交貨規(guī)則。當你買了一桶原油時,你就知道你得到了什么。
數(shù)據(jù)……并不是那樣的。數(shù)據(jù)本身就是異構(gòu)的。數(shù)據(jù)集A和數(shù)據(jù)集B可能都是某個驅(qū)動器上的位,但除此之外通常沒有任何共同之處。不同的字段、模式、規(guī)格;不同的主題、覆蓋范圍、信息內(nèi)容;不同的使用者、用例和價值。每桶WTI原油都是相同的;沒
有兩個數(shù)據(jù)集是相同的。
這是否意味著數(shù)據(jù)定價完全是藝術(shù),而不是科學(xué)?不完全是。數(shù)據(jù)固有的異質(zhì)性意味著沒有任何標準可以是絕對的;沒有一個單一的公式可以應(yīng)用。但是,有一些明確的原則可以適用于廣泛的數(shù)據(jù)資產(chǎn)。
歷史上,有兩個行業(yè)主導(dǎo)著數(shù)據(jù)交易:金融和廣告技術(shù).這是僅有的兩個具有多個買家、多個有價值的數(shù)據(jù)資產(chǎn)、多個用例的行業(yè);還能夠為數(shù)據(jù)支付一致的物質(zhì)經(jīng)常性收入.
這種情況已經(jīng)改變了。
城里有了一個新的買家:人工智能。人工智能模型對訓(xùn)練數(shù)據(jù)有著貪得無厭的需求——這幾乎肯定是當前它們能力增長的限制因素——因此它們的贊助商(MSFT、OpenAI、Anthropic和他們的朋友門)不遺余力地獲取這些數(shù)據(jù)。但他們所需要的數(shù)據(jù)并不一定就像金融和廣告技術(shù)所需要的數(shù)據(jù)一樣,它們的效用/價值曲線也有所不同。這對訓(xùn)練數(shù)據(jù)的定價有影響,使得許多過去的直覺無關(guān)緊要。當我們?yōu)g覽我們的定價原則列表時,我將試圖強調(diào)其中一些新的影響。我們走吧!
從顯而易見的(但經(jīng)常被誤解)開始:數(shù)據(jù)沒有天生的價值。數(shù)據(jù)的價值來自于可以用它做什么的價值.因此,每一次關(guān)于價格的討論都必須從理解這個價值開始:數(shù)據(jù)將如何被使用,以及由誰使用。
不指定數(shù)據(jù)將如何使用而討論數(shù)據(jù)價值是沒有意義的。財務(wù)報表對廣告宣傳活動沒有什么用處。受眾資料對股票分析沒有什么用處。但是翻轉(zhuǎn)這些,數(shù)據(jù)集不僅有用;它們是必不可少的。
用例就是一切。
使用相同用例的相同數(shù)據(jù)集可能會為不同的用戶提供不同的價值。訓(xùn)練數(shù)據(jù)對OpenAI的價值與它對單獨黑客的價值是非常不同的。資本市場數(shù)據(jù)對城堡的價值與對散戶投資者的價值是很大不同的。每個數(shù)據(jù)用戶都是獨一無二的。
其中一些只是規(guī)模效應(yīng);當同樣的數(shù)據(jù)部署到數(shù)百萬客戶、數(shù)十億資本或數(shù)萬億參數(shù)時,它們產(chǎn)生的影響更大。但這也是一種功能效應(yīng): Citadel和OpenAI可以從相同的數(shù)據(jù)中比一般的用戶獲得更多。數(shù)據(jù)定價的很大一部分是尋找這兩種效應(yīng)的有用代理。我們將回到這個想法上來。
數(shù)據(jù)在某種程度上是附加的,而軟件不是。如果你有一個CRM,你就不需要第二個;在你的Salesforce中添加HubSpot和Pipedrive并不會提高你的銷售業(yè)績。同樣的道理也適用于你的機票跟蹤系統(tǒng)、人力資源管理系統(tǒng)、工資和費用系統(tǒng),甚至你所有的軟件。重復(fù)投資是一種詛咒;不要重復(fù)。
這不是數(shù)據(jù)的情況!在潛在客戶名單中添加更多的名字會使這個名單更有價值。事實上,您可以沿著多個維度添加數(shù)據(jù):更多的名稱,每個名稱也有更多的字段,每個字段也有更多的細節(jié);您甚至可以組合三個完全重疊的數(shù)據(jù)集來生成更高質(zhì)量的合并。添加劑!
一個幾乎普遍的誤解是,數(shù)據(jù)是“非競爭的好處”:人a使用數(shù)據(jù)集并不阻止人B使用相同的數(shù)據(jù)。這是錯誤的。
這是不正確的,因為它純粹關(guān)注數(shù)據(jù)消費的機制。復(fù)制大多數(shù)數(shù)據(jù)集是很簡單的,從這個意義上說,是的,A和B都可以“使用”相同的數(shù)據(jù)。但這并不意味著他們能從中得到相同的值。
金融市場提供了最明顯的例子。如果一個特定的數(shù)據(jù)集(比如衛(wèi)星圖像或信用卡交易)持有未定價的信息內(nèi)容,那么對沖基金a就可以利用該數(shù)據(jù)進行交易來賺錢。但一旦這樣完成了,對沖基金B(yǎng)就不能做到了!機會消失了。這些數(shù)據(jù)實際上是競爭對手:只有一方可以采取行動。
非競爭對手的誤解源于將數(shù)據(jù)視為具有先天價值。如果是這樣的話,僅僅擁有這些數(shù)據(jù)就足夠了。但正如我們所知,數(shù)據(jù)的價值在于你可以用它做什么的價值。而這通常取決于沒有其他的人在做同樣的事情。在實際的數(shù)據(jù)業(yè)務(wù)實踐中,數(shù)據(jù)集越有價值,其所有者在保持獨家、專有和保護上花費的精力就越多。如果數(shù)據(jù)不是競爭性的,這種情況就不會發(fā)生。
請注意,使用用于人工智能模型訓(xùn)練的地球尺度數(shù)據(jù)集,即使從一開始假設(shè),復(fù)制和消耗數(shù)據(jù)很簡單,也是不正確的;這些數(shù)據(jù)集是巨大的。
優(yōu)勢不會永遠持續(xù)下去——不論在資本市場,在人工智能培訓(xùn)中,還是在任何地方。數(shù)據(jù)集被商品化了,并產(chǎn)生了替代品。此時,這些數(shù)據(jù)就變成了非競爭性的。
這傷害了大多數(shù)數(shù)據(jù)供應(yīng)商,但對少數(shù)人來說是一個巨大的提升。每個數(shù)據(jù)所有者的夢想是讓他們的數(shù)據(jù)成為表注——商品化,但至關(guān)重要。
在為出售數(shù)據(jù)資產(chǎn)定價時,了解其特定生命周期中的位置至關(guān)重要。
在早期,數(shù)據(jù)集和市場都不夠成熟,不足以推動價值。數(shù)據(jù)集不完整、不準確、速度慢、不相關(guān)。市場缺乏有效使用數(shù)據(jù)集的工具或復(fù)雜性。可能會有探索性的活動,但交易很少發(fā)生。
第二個階段是當早期采用者意識到數(shù)據(jù)中存在alpha時——更好的針對性廣告,或更好的模型價值,或超額的市場回報。(我在這里使用的是alpha這個詞最廣泛的含義——比行業(yè)其他公司更有優(yōu)勢)。在這一點上,數(shù)據(jù)是超級有價值的(相應(yīng)定價),但受眾仍然狹窄。順便說一下,大多數(shù)數(shù)據(jù)資產(chǎn)永遠不會走到這一步。
第三個階段是讓一個給定的數(shù)據(jù)集在其行業(yè)中得到廣泛的應(yīng)用。替代品激增,價格下跌。隨著更多的供應(yīng)商和更多的用戶,它的alpha衰減;仍然有一些,但不多.
最后一個前沿是當數(shù)據(jù)集成為桌面籌碼時:當人們使用它時,不是因為它提供了優(yōu)勢,而是因為不使用它會使他們處于不利地位。在這一點上,價格回升——不像阿爾法階段那么高,但比衰變階段高——使用急劇增加。這是作為數(shù)據(jù)所有者的最佳位置;進入這個階段的公司可以從單一資產(chǎn)中獲得數(shù)年甚至數(shù)十年的收入.
結(jié)合點1(數(shù)據(jù)的價值在于可以用它做的事情)和點3(數(shù)據(jù)從根本上是相加的),我們可以得出數(shù)據(jù)價值的嚴格定義:
數(shù)據(jù)的價值是在將數(shù)據(jù)添加到業(yè)務(wù)流程后所采取的操作中產(chǎn)生的邊際變化值。
這個業(yè)務(wù)流程可以是你的模型訓(xùn)練步驟,你的定量交易策略,你的廣告拍賣,或者任何其他數(shù)據(jù)驅(qū)動的東西。
找到估計這一邊際值的方法是有效的數(shù)據(jù)定價的關(guān)鍵.
我們現(xiàn)在開始理解為什么真正獨特的(又名專有的)數(shù)據(jù)是如此有價值的。
首先,它是普遍的可加性的——你可以將它與幾乎任何現(xiàn)有的語料庫結(jié)合起來,并增加它的實用性,從而增加它的價值.
其次,數(shù)據(jù)所有者可以(嘗試)控制其生命周期。通過控制商品化/阿爾法衰減/過渡到桌面賭注的速度,您可以最大化[價格x交易]曲線下的面積。
第三,如果一個獨特的數(shù)據(jù)產(chǎn)品成為表注,其所有者擁有壟斷權(quán);這相當于向整個行業(yè)征稅。為這些數(shù)據(jù)付費只是“做生意的成本”。
數(shù)據(jù)的價值是可以用它做什么的價值。因此,完全不同的數(shù)據(jù)集可能是競爭對手,競爭提供相同的價值!這是一種“功能替代”,它讓許多人認為自己的數(shù)據(jù)資產(chǎn)是獨特的人感到困惑。
下面是兩個示例:
l客流量、電子郵件收據(jù)和信用卡交易日志都是非常不同的數(shù)據(jù)集,但它們提供了相似的見解:人們在購物中心買什么。你的步行流量數(shù)據(jù)可能是專有的和獨特的,但信用卡交易是一個功能性的替代品,所以你的數(shù)據(jù)在它所提供的價值上并不是真正獨特的。
l人口統(tǒng)計資料、社交網(wǎng)絡(luò)行為和搜索歷史都是非常不同的數(shù)據(jù)集,但它們提供了相似的見解:人們對什么感興趣,因此他們可能會買什么。
在這里注意兩件事。首先,功能替代品可以是(而且通常是)相加的。您可以將它們組合起來,描繪出更豐富的現(xiàn)實圖景,特別是在底層源/機制足夠不相關(guān)的情況下。
其次,在功能替代品之間通常有一個價值層次,它與哪個數(shù)據(jù)集“最接近太陽”有關(guān)——也就是說,與感興趣的潛在事件聯(lián)系最緊密。是的,人口統(tǒng)計數(shù)據(jù)有時可以預(yù)測買家的意圖,但它不像電子商務(wù)搜索活動那樣強大(或有價值)的信號,因為后者更接近于購買行為。
如今,絕大多數(shù)的企業(yè)軟件都是通過分層訂閱計劃來銷售的。帶有青銅、銀、金等標簽;或者是個人、專業(yè)、企業(yè),都是通過功能、座位數(shù)量、使用限制和其他交付價值的代理來區(qū)分的.
不幸的是,這些代理大多不適用于數(shù)據(jù).例如:
l按座位定價行不通,因為數(shù)據(jù)價值不會與用戶數(shù)量成線性關(guān)系。再添加一個數(shù)據(jù)用戶并不像再添加一個軟件用戶或登錄帳戶。數(shù)據(jù)由團隊使用;有時可以對每個團隊收費,但團隊的大小、用例和生成的值都是不同的。
l按功能點定價(在軟件的意義上定價,而不是在ML的意義上定價)不起作用。事實上,目前還不清楚“數(shù)據(jù)功能點”會是什么。這里很少有有意義的滑塊。
l按原始數(shù)量(即你購買多少兆兆字節(jié))定價不性,除非數(shù)據(jù)完全可替代,有點商品化,可能相當非結(jié)構(gòu)化。但請注意,一些人工智能訓(xùn)練數(shù)據(jù)集就是這樣。
l通過API調(diào)用定價不行,除非數(shù)據(jù)變化/衰減非常快。(但是如果API調(diào)用觸發(fā)了一個動作,而不僅僅是下載,那么這是可行的;請參見下面關(guān)于包裝器的討論)。
l通過下載定價——相當于支付即時軟件許可——行不通,因為數(shù)據(jù)很容易復(fù)制,審計困難。
但你也可以從其他的角度來考慮:
l按結(jié)構(gòu)化卷定價有效:您為更多的記錄、更多的字段(如果數(shù)據(jù)是表格式的)、更多的覆蓋范圍或更多的粒度支付更多的費用。例如,支付更多的個人資料(在營銷數(shù)據(jù)庫中)或更長的歷史(在財務(wù)數(shù)據(jù)庫中)。
l按質(zhì)量的作品定價。請注意,質(zhì)量存在于多個維度中——準確性、完整性、注釋和結(jié)構(gòu)。這本身擁有整個部分;看到下面。
l按接入工程定價。您可以對速度、近因性、更新節(jié)奏、排他性和自定義使用權(quán)收取更高的費用。這些都是真正的標尺,許多數(shù)據(jù)供應(yīng)商將根據(jù)買家的需求和需求,明確地對其價格進行分層。
l按用例定價是您可以對數(shù)據(jù)進行定價,而不能對軟件進行定價。軟件用例在很大程度上是固定的:DocuSign不會處理你的賬戶,Quickbooks不會管理你的簽名。但是同樣的數(shù)據(jù)集可以幫助不同的用戶執(zhí)行完全不同的任務(wù)。(這當然是數(shù)據(jù)定價困難的原因!)
l按客戶規(guī)模定價是有效的。這是顯而易見的,但值得明確指出:大客戶從給定的數(shù)據(jù)資產(chǎn)中比小資產(chǎn)獲得更多的價值,因此他們應(yīng)該愿意支付更多的錢。這不僅僅是一種口袋效應(yīng);這是各方面的理性行為。
l按業(yè)務(wù)單位定價是按客戶規(guī)模定價的一種特殊(和有用的)情況;這里的業(yè)務(wù)單位可以是一個團隊,一個地理位置,一個產(chǎn)品線,甚至是一個特定的模型生成。客戶通常更愿意接受這個標尺,而不是直接支付更大的規(guī)模。
一種常見的模式是自己為你的數(shù)據(jù)資產(chǎn)識別最有價值的用例;將其包裝到一個軟件應(yīng)用程序中;然后出售該應(yīng)用程序。谷歌是這里的典型例子:他們的數(shù)據(jù)資產(chǎn)之一是“客戶意圖的知識”,他們將其打包到他們的廣告業(yè)務(wù)中。廣告商覬覦將他們的產(chǎn)品呈現(xiàn)在“正確的”客戶面前的能力;如果他們知道誰是正確的客戶,他們就會自己這樣做;谷歌有這些信息,對他們也有,而且有代價。
益百利對消費者信用數(shù)據(jù)也做了同樣的事情;彭博建立了一個整個終端來管理對其金融數(shù)據(jù)資產(chǎn)的訪問;就此而言,ChatGPT只是一個用戶界面,建立在GPT-4的模型權(quán)重上,而模型權(quán)重又依賴于大量的訓(xùn)練數(shù)據(jù)。(有人可能會說,考慮到封閉和開源LLM架構(gòu)的進展速度,訓(xùn)練數(shù)據(jù)——以及由此產(chǎn)生的模型權(quán)重——才是真正的秘訣。)
將數(shù)據(jù)打包到軟件中有兩個主要優(yōu)勢:首先,現(xiàn)在更容易將數(shù)據(jù)價值與交付的價值聯(lián)系起來;其次,你現(xiàn)在可以使用傳統(tǒng)的軟件定價軸進行銷售。(BBG有每個座位,益百利有每個查詢,谷歌有令人難以置信的關(guān)鍵字拍賣。)
請注意,順便說一下,通過將數(shù)據(jù)資產(chǎn)包裝在軟件中來貨幣化,這與使用數(shù)據(jù)來提高軟件資產(chǎn)的性能是完全不一樣的。(這是一個非常常見的類別錯誤。)后者是從亞馬遜到Zentesk的企業(yè)使用的經(jīng)典“數(shù)據(jù)學(xué)習(xí)循環(huán)”;但數(shù)據(jù)并不是這些公司的核心產(chǎn)品;數(shù)據(jù)只是幫助他們優(yōu)化軟件和操作。
一種日益常見的業(yè)務(wù)模式是以數(shù)據(jù)資產(chǎn)的形式提供本質(zhì)上的服務(wù)。
考慮Scale.ai或Clearbit或Datavant。它們都提供本質(zhì)上的服務(wù)——數(shù)據(jù)標簽、配置文件豐富和醫(yī)療記錄匿名——但它們以數(shù)據(jù)產(chǎn)品的形式提供這種服務(wù),您可以通過下載、API調(diào)用或公共密鑰訪問。
這樣做的美妙之處在于,與傳統(tǒng)的服務(wù)模式不同,這種方法可以擴展:執(zhí)行一次服務(wù),但銷售多次。就像軟件包裝一樣,你可以沿著傳統(tǒng)的軟件定價軸將服務(wù)包裝貨幣化——通過行動,通過API調(diào)用,甚至通過座位。
高質(zhì)量的數(shù)據(jù)成本更高。但是我們所說的高質(zhì)量到底是什么意思呢?事實證明,就像所有的數(shù)據(jù)一樣,數(shù)據(jù)質(zhì)量的定義取決于數(shù)據(jù)被放置的用途。
量化和系統(tǒng)的對沖基金——也許是世界上最大的原始數(shù)據(jù)購買者——關(guān)心的是準確性和精確度。他們的業(yè)務(wù)是基于識別代表背離有效市場的數(shù)據(jù)點——異常價格、可預(yù)測的模式、意外的相關(guān)性、內(nèi)部不一致、被誤解的風(fēng)險。錯誤的數(shù)據(jù)點是危險的,因為它們表明不存在的背離。
Adtech平臺——大規(guī)模數(shù)據(jù)的另一個主要買家/用戶——關(guān)注數(shù)據(jù)的覆蓋范圍和深度。異常值和個人不良/缺失數(shù)據(jù)點并不重要;他們的業(yè)務(wù)就是盡可能多地抓住分銷的核心,這樣當廣告商定義目標檔案、關(guān)鍵字或行為時,他們就有豐富的受眾。
需要培訓(xùn)數(shù)據(jù)的人工智能模型——數(shù)據(jù)的新買家——關(guān)心結(jié)構(gòu)和內(nèi)部結(jié)構(gòu)。到目前為止(這個領(lǐng)域發(fā)展得非常迅速,所以誰知道這能持續(xù)多久),訓(xùn)練數(shù)據(jù)中對模型性能的影響最大的質(zhì)量屬性是結(jié)構(gòu)性的(而不是信息性的)清潔度(即去重、去噪、去偏的數(shù)據(jù));標注;數(shù)據(jù)多樣性;也許還有一些領(lǐng)域的特異性。
請注意,這些質(zhì)量因素并不是相互排斥的;理想情況下,您想要所有它們(以及更多),無論您的用例如何。但它們的相對重要性各不相同。
這將如何影響數(shù)據(jù)定價?價格歧視是顯而易見的答案:同一數(shù)據(jù)資產(chǎn)根據(jù)其質(zhì)量因素的分布對不同的用戶具有不同的價值。(這只是對上述公理3的一個重述。)
更微妙的一點是,許多這些質(zhì)量屬性都是可以改進的。您可以對原始數(shù)據(jù)進行注釋;您可以組合數(shù)據(jù)集以增加覆蓋率;您可以交叉引用數(shù)據(jù)集以提高準確性。采取這些操作是提高數(shù)據(jù)價值的一種簡單方法,無論是外部銷售還是內(nèi)部使用。
(誰最適合采取這些行動?數(shù)據(jù)生產(chǎn)者的優(yōu)勢是,他們可以跨多個買家攤銷這些行動的成本;數(shù)據(jù)消費者的優(yōu)勢是,他們知道自己的用例,因此可以優(yōu)先考慮最有效的行動。)
根據(jù)用戶配置文件和特定的用例,可能有數(shù)據(jù)集價值的其他驅(qū)動因素:
l當數(shù)據(jù)資產(chǎn)穿越其成熟度曲線時,可證明的法規(guī)遵從性將變得更有價值。在早期,當數(shù)據(jù)的效用未知時,參與者不太傾向于為遵從性付費。但隨著生態(tài)系統(tǒng)的成熟,這就變得更加重要了.
l數(shù)據(jù)來源是有價值的,因為它使遵從性更容易,并減少了錯誤引入的范圍。主要來源是這里的黃金標準。
l未受污染的數(shù)據(jù)在任何涉及預(yù)測的用例(生成人工智能,或定量投資)中都是非常有價值的。這些數(shù)據(jù)從未被挖掘或匹配,因此沒有使你的數(shù)據(jù)產(chǎn)生偏差。未受污染的數(shù)據(jù)是不可再生的資產(chǎn);一旦你使用它進行訓(xùn)練或測試,它就會失去其原始狀態(tài),所有未來的使用都必須考慮過擬合的風(fēng)險。
l數(shù)據(jù)可互換性——數(shù)據(jù)集中的每一條記錄都與其他記錄一樣——很好,因為它使數(shù)據(jù)在值生成中更易于處理、可加性和可重復(fù)性。
這些都是價值的內(nèi)部驅(qū)動因素:屬性,雖然不一定是你所認為的“質(zhì)量”,但它們?nèi)匀皇菙?shù)據(jù)集固有的。但也有外部的價值驅(qū)動因素,其中許多與桌面賭注地位有關(guān)。
數(shù)據(jù)集可以通過不同的方式獲得桌面賭注狀態(tài):
一些數(shù)據(jù)集成為了數(shù)據(jù)交換的標準。標普針對公開交易證券的CUSIP,D&B針對私人公司的DUNS,達塔凡特針對病歷的通用病人鑰匙,LiveRamp針對廣告客戶受眾的RampID在這里都是這樣的例子,盡管是不同程度的“桌面賭注/行業(yè)采用”。
一些數(shù)據(jù)集成為評估基準。這里的夢想是提供每個行業(yè)參與者都必須用來衡量自己的“地面真相”。標準普爾、納斯達克和MSCI通過他們的市場指數(shù)來衡量投資者的表現(xiàn)。尼爾森對電視廣告也這樣做:廣告商和網(wǎng)絡(luò)都依賴尼爾森的收視率來標記他們的合同。
一些數(shù)據(jù)所有者擁有準壟斷能力,要么由數(shù)據(jù)飛輪驅(qū)動,要么由某種非數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)驅(qū)動。Meta和谷歌就是前者的例子:它們的知識圖,通過用戶內(nèi)容和意圖不斷更新,主導(dǎo)著在線廣告。彭博伯格是后者的一個例子,因為其終端無處不在。
一些數(shù)據(jù)集依賴于捆綁的使用來成為桌面賭注。要在給定的行業(yè)中工作,您必須(有效地)購買一個數(shù)據(jù)集;相反,要使用這些數(shù)據(jù),您必須獲得在該行業(yè)工作的許可。個人房地產(chǎn)經(jīng)紀人、各種房地產(chǎn)經(jīng)紀人組織/經(jīng)紀公司/當?shù)卣J證機構(gòu)之間的關(guān)系,以及MLS房地產(chǎn)數(shù)據(jù)庫之間的關(guān)系就是一個很好的例子。
數(shù)據(jù)的價值就是你可以用它做的值。因此,你被允許做的事情越多——賣家授予你的使用權(quán)就越多——你應(yīng)該愿意支付的錢就越多!這是一種完全獨立于質(zhì)量、數(shù)量、數(shù)據(jù)集內(nèi)部結(jié)構(gòu)或桌面賭注狀態(tài)的定價效應(yīng)。
常見的使用權(quán)限包括:
l使用權(quán)范圍:內(nèi)部、產(chǎn)品內(nèi)、面向客戶、全面再分配
l所有權(quán):轉(zhuǎn)讓與許可,顯式與隱式權(quán)限,批準和禁止的用例
l審核權(quán)限:使用跟蹤、觀察、遵從性、合同后刪除
l派生數(shù)據(jù)權(quán)利:修改、貢獻和歸屬(例如,如果數(shù)據(jù)與其他數(shù)據(jù)集組合)、下游產(chǎn)品的所有權(quán)
l合規(guī)權(quán)利:對數(shù)據(jù)的責(zé)任、代表和保證,法律保護
復(fù)雜的數(shù)據(jù)合同非常仔細地描述了您可以用您許可的數(shù)據(jù)做什么和不能做什么,而且這些許可通常具有標價。
最近一個有趣的發(fā)展是,實物支付作為一種數(shù)據(jù)資產(chǎn)的補償模式的出現(xiàn)。當(比如)OpenAI從一個新聞媒體組織授權(quán)內(nèi)容時,他們提供的一部分是在聊天對話和鏈接放置中突出該組織的品牌。這有多種好處:媒體組織獲得“人工智能有機”流量;LLM獲得新的數(shù)據(jù);雙方都可以使用點擊和參與數(shù)據(jù)來衡量內(nèi)容的實際提升和價值;這是一個重復(fù)出現(xiàn)的組成部分。瞇起眼睛,你甚至可以看到類似于谷歌對內(nèi)容創(chuàng)造者的Adwords和SEO的組合拳。
少量的高質(zhì)量(準確、真實)的數(shù)據(jù)是否優(yōu)于大量的“足夠好”的數(shù)據(jù)?對于人工智能的用例,答案越來越被否定。
我們在“數(shù)據(jù)的不合理有效性”和“規(guī)模就是你所需要的”等想法中看到了這一點。你向它們提供的訓(xùn)練數(shù)據(jù)越多。微調(diào)和領(lǐng)域特異性,特別是人類啟發(fā)式,往往趨于穩(wěn)定;這是許多研究人員努力學(xué)到的“痛苦的教訓(xùn)”。
(最近的一個很好的例子是GPT-4,一種使用更多標記的一次性模型訓(xùn)練,在幾乎所有財務(wù)分析任務(wù)上的表現(xiàn)都優(yōu)于blombergGPT。)
這里的一個結(jié)果是,斯特金定律——“90%的所有東西都是垃圾”——不再如此有力地支持數(shù)據(jù)。在過去,世界上絕大多數(shù)的數(shù)據(jù)集都沒有持有任何洞察力,也沒有催化任何行動,也沒有任何價值。人工智能對各種訓(xùn)練數(shù)據(jù)的貪婪欲望意味著這種情況不再如此:即使是那些垃圾的東西也能幫助模型進化(可能不是很多,但不是零)。
那么,數(shù)量對人工智能來說是否明顯超過了質(zhì)量呢?這并不是那么簡單,因為我們也關(guān)心邊際影響和投資回報率。在大量的語料庫上灑一點質(zhì)量——例如,通過簡單的去重復(fù)操作——會對模型性能產(chǎn)生顯著影響。隨著訓(xùn)練集的增大,這樣做通常比獲取下一個令牌更有效;超過某一點,數(shù)據(jù)質(zhì)量比數(shù)據(jù)量作用更好.
這對數(shù)據(jù)定價的影響很簡單。數(shù)量很重要,優(yōu)質(zhì)的數(shù)量甚至更好,而且沒有上限。
人工智能用例的定價數(shù)據(jù)面臨的最大挑戰(zhàn)是,大部分訓(xùn)練價值來自歷史語料庫,這意味著從持續(xù)更新中獲得經(jīng)常性收入的機會有限。對OpenAI來說,Reddit十多年來的存檔內(nèi)容要比增加一天、一周或一個月的新內(nèi)容要有趣得多.
當然,經(jīng)常性收入是有效的長期數(shù)據(jù)定價和經(jīng)濟效益的秘密。當數(shù)據(jù)具有短保質(zhì)期、定期更新節(jié)奏和可重復(fù)使用的組合時,它的工作效果最好。人工智能訓(xùn)練數(shù)據(jù)集通常沒有這些屬性.
有一些方法可以減輕這種情況。當然,你可以收取更高的價格,以彌補未來的付款;或者你也可以嘗試對每個模型或每次訓(xùn)練運行收費。
這里的長期解決方案是構(gòu)建一個數(shù)據(jù)飛輪——一個“永久數(shù)據(jù)機器”,它生成或捕獲穩(wěn)定的新數(shù)據(jù)流,或不斷改進現(xiàn)有數(shù)據(jù)。這些飛輪可以基于用戶行為(Reddit的帖子數(shù)據(jù)),或商業(yè)模式(納斯達克的交換數(shù)據(jù)),或技術(shù)(谷歌的內(nèi)容意圖循環(huán)),或許多其他原型;關(guān)鍵是他們不斷提供新的數(shù)據(jù)進行訓(xùn)練。
合成數(shù)據(jù)管道提供了一種方法,以產(chǎn)生無限數(shù)量的高質(zhì)量、總是新的訓(xùn)練數(shù)據(jù),其成本遠低于“在野外”獲取可比數(shù)據(jù)。(數(shù)量和成本效應(yīng)均跨越數(shù)量級)。早期的跡象表明,在訓(xùn)練前沿模型中,構(gòu)造良好的合成數(shù)據(jù)幾乎和自然數(shù)據(jù)一樣有效。這為無限期地引導(dǎo)數(shù)據(jù)曲線提供了一個誘人的前景:使用每一代的LLM來生成合成數(shù)據(jù)來訓(xùn)練下一代.
合成數(shù)據(jù)的可行性和數(shù)量高于質(zhì)量的重要性都不利于現(xiàn)有數(shù)據(jù)資產(chǎn)的價格。專有的數(shù)據(jù)已經(jīng)不像以前那樣了!
(也就是說,純粹的合成數(shù)據(jù)往往會隨著時間的推移而下降,形成一種熵的漂移。隨著LLM輸出在網(wǎng)絡(luò)上激增,在野外可能會出現(xiàn)類似的現(xiàn)象。這里最壞的情況是格雷沙姆效應(yīng),即壞的內(nèi)容會驅(qū)逐好的內(nèi)容。所有這些可能性都表明,可證明的人類專有數(shù)據(jù)畢竟有其地位。)
通常,ACV決定了銷售周期。你的價格點決定了你的市場走勢(企業(yè)銷售、內(nèi)部銷售、自助服務(wù)等),因此,完成交易需要一段時間。對于數(shù)據(jù)銷售也是如此,但還有一個相反的影響:銷售周期決定了ACV。
這是為什么。在企業(yè)軟件中,完成銷售所花費的大部分時間都花在了武裝你的擁護者,進行功能測試,獲得不同利益相關(guān)者的支持,選擇等級和協(xié)商價格,引導(dǎo)用戶等等。這個過程很少能轉(zhuǎn)化為數(shù)據(jù)銷售(沒有層次,沒有功能,沒有用戶)。
相反,數(shù)據(jù)銷售周期中的大部分時間都花在了開啟、鏈接、抽樣、測試和使用實際數(shù)據(jù)上。這是昂貴的;制造工程師并不便宜。買家花在數(shù)據(jù)集上花費的時間和資源越多,買家認為數(shù)據(jù)集有價值的信號就越強。
考慮到數(shù)據(jù)價值通常很不透明,這個信號是有意義的——尤其是當買家規(guī)模較大且經(jīng)驗復(fù)雜的時候。賣家意識到了這一點,并提高了價格.
這篇文章的大部分內(nèi)容都是關(guān)于個人數(shù)據(jù)資產(chǎn)或交易的定價。但對數(shù)據(jù)所有者來說,了解市場的規(guī)模也很重要;畢竟,收入不僅僅是價格,而是價格乘以交易。最有利可圖的數(shù)據(jù)資產(chǎn)通常是那些(相對)價格較低和交易基礎(chǔ)大的數(shù)據(jù)資產(chǎn)。
什么決定了市場規(guī)模?易讀性。
數(shù)據(jù)集越清晰,客觀計算其投資回報率就越容易,其市場就越大。這表現(xiàn)為更多的客戶,更多類型的客戶,在給定的客戶中有更多的使用,更高的價格和更低的獲取成本.廣告技術(shù)和金融是最賺錢的垂直數(shù)據(jù)行業(yè),這并非巧合:這些行業(yè)也是最容易對數(shù)據(jù)庫、數(shù)據(jù)集,有時甚至是個人數(shù)據(jù)記錄賦予美元價值的行業(yè)。人工智能訓(xùn)練數(shù)據(jù)是否會達到相同的成熟度水平?我們會看到的!
所以你就有了:5000個+關(guān)于數(shù)據(jù)定價的詞。我們已經(jīng)介紹了用例和用戶;質(zhì)量和數(shù)量;內(nèi)部和外部價值因素;定價軸和成熟度曲線;桌面賭注和使用權(quán);和更多。如果我錯過了什么,我很想在評論中聽到你的意見。快樂的數(shù)據(jù)定價!
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)