50家世界頂級資料初創公司一覽

資訊來源自future，略有修改，作者jennifer li, sarah wang, jamie sullivan

在“大資料”概念誕生十多年後，資料仍然是大型企業和初創企業中最重要、發展最迅猛的創新驅動因素之一。從提供作為商業運作基礎的脈搏檢查，到透過機器學習實現日常任務的智慧自動化，資料已經成為各種規模組織決策的中樞神經系統。此外，資料的使用已經遠遠超出了資料科學家、資料分析師和資料工程師的範疇——每個人都是資料生產者和消費者。

對資料更加關注的結果是，資料管理業務已經成為基礎設施增長最快的領域之一，據估計價值超過700億美元，佔2021年所有企業基礎設施支出的五分之一以上。這個市場形成的美妙之處在於，它結合了軟體工程、分析和人工智慧領域，同時藉助雲端計算的潮流勢頭。

在過去的幾年裡，資料產業的增長也催生了一些最令人興奮和最有影響力的企業軟體公司。最近上市的巨頭，如snowflake和confluent已經改變了數以千計的企業運作方式和數以百萬計的產品構建。然而，大多數人都不太熟悉那些有影響力的，下一代定義類別的公司。

在創紀錄的2021年，資料公司獲得了數百億的風險投資，2022年的風險投資也已經很強勁。我們編制了首批資料50強名單。這些是資料領域的領頭羊公司。這50家公司的總市值超過1000億美元，總共籌集了約145億美元的資金，其中20家在2021年達到獨角獸地位。

言歸正傳，我們很高興地介紹2022年的資料50強。

這些公司是在2008年之後成立的，在過去兩年中已經籌集了新的資金，並且他們的員工人數每年至少增長30%。他們的產品是為各行業的資料或資料應用團隊服務的水平技術。

排名綜合考慮了最近的估值、公司規模、過去兩年的員工增長、過去幾年的運營情況以及當前的收入規模。員工資料基於linkedin公開提供的資料。融資資料基於pitchbook和crunchbase的公開資料，截至2022年3月22日。

請注意，這份名單不包括交易型資料庫公司，如cockroachdb、planetscale和yugabyte，因為這些技術的資料本身就是交易性的，而不是分析性的。

我們將data50分解為7個子類別。

查詢和處理技術是訪問、聚合和計算資料的核心引擎。它涉及兩大類:批處理(如databricks和starburst)和實時處理(如clickhouse和imply)。在過去的幾年裡，由於對實時應用的需求不斷增加，後者得到了越來越多的關注。

ai/ml(人工智慧和機器學習)包括應用演算法建模和機器學**規模資料的軟體。從上榜公司的數量來看，這一領域正在成熟和繁榮。一些公司專注於特定型別的資料（如rasa和hugging face的自然語言），而其他公司則專注於不同的領域，如人工智慧的產品化（如scale、tecton和weights and biases）或充當執行人工智慧工作負載的 "計算層"（如anyscale）。

elt & orchestration支援資料的移動。它是保證資料準確、準時到達目的地的傳輸層。此類別是從基於本地拖放介面的傳統etl供應商演變而來的。另一方面，新類別的廠商大多是雲原生的（如fivetran和dbt），對開發者友好的（如astronomer和prefect），並處理不同資料環境中更復雜的依賴關係。

隨著資料堆疊變得越來越複雜，越來越多的利益相關者參與進來，資料治理和安全正成為關鍵問題。治理工具是必需的，尤其是在高度規範的行業中來確保資料的安全並在整個資料生命週期中保持合規性(例如onetrust和collibra)。這一類別相對較新，通常服務於受監管的大型企業公司。

傳統上，客戶資料分析由營銷團隊負責。然而，由於其重要性的增加，資料團隊現在更多地參與到將客戶資料與中央資料平臺的整合中。這個類別主要是捕捉客戶資料（如rudderstack和actioniq）或將資料操作化以服務於一線業務用例（如census和hightouch）。

bi & notebooks覆蓋了資料的消費層。儘管它是一個成熟的類別，但像preset或metabase這樣的新玩家正在採取開源優先的方法吸引技術資料工程師和商業智慧團隊。資料需求的快速變化也創造了對迭代和互動式筆記本(如hex)和自動洞察力生成(如sisu)的更多需求。

資料可觀察性從軟體工程堆疊中的最佳實踐中獲得靈感。隨著資料堆疊越來越依賴於上游和下游的工具，資料的準確性也有了更廣泛的影響，可觀察性作為最新的類別出現，為整個資料流提供監控和診斷能力。

儘管市場採用的主要推動力是資料量和使用量的增加，但每個類別的潛在驅動力各不相同。例如，查詢和處理領域的進步主要是由計算和儲存的分離、向雲端計算的遷移和以及更廉價的計算能力驅動的。與此同時，在資料治理和資料可觀察性中採用操作性工具在很大程度上是由不斷增長的操作性用例和資料工作流的複雜性驅動的。

查詢和處理公司籌集了最大的資本份額

查詢和處理類別只佔data50公司的五分之一，但投資在這一類別的資金數額(幾乎佔所有資金的50%)是驚人的。儘管這一資料受到了databricks最近16億美元融資的影響，但如果沒有它，這一類別仍將佔所有融資的37%，是下一個類別的兩倍多。

按公司數量檢視類別時，分佈更為均衡。就公司數量而言，ai/ml是最大的類別，這主要是因為該領域仍在發展，需要一套新的獨立工具來訓練、測量和生產模型。

data50群集在灣區

在這50家公司中，46家(92%)位於美國，4家是國際公司。這些公司大多位於舊金山灣區，有9家位於華盛頓特區、費城、紐約和波士頓。其中兩家位於西雅圖，一家位於辛辛那提，還有一家位於亞特蘭大。

這種分佈受到大規模資料生態系統歷史位置的嚴重影響(例如，oracle和teradata都是在舊金山灣區成立的)。然而，隨著資料工程人才和對資料工具的需求幾乎遍及每個大陸，我們看到越來越多的資料公司在全球湧現（例如clickhouse 和 firebolt）。

ai/ml類別推動了2019年新資料公司激增

大多數data50公司成立於2014年之後，在ai/ml工具爆炸式增長的推動下，在2019年左右達到頂峰。事實上，2019年之後有更多的資料公司成立，但因為我們關注的是已經達到一定規模的公司，大多數較新的公司還沒有出現在這個榜單上。

每個類別的投資都在增長

從每個類別的投資來看，最顯著的趨勢是ai/ml公司比以往任何時候都吸引了更多的投資者興趣，大部分集中在早期階段。elt & orchestration也是如此——這在很大程度上是由fivetran和dbt的百萬級交易驅動的。查詢和處理公司繼續吸引大筆資金，儘管這些公司往往處於後期階段。

我們堅信，未來10年將是資料的10年，包括基礎設施、應用程式以及介於兩者之間的一切。因此，我們將繼續看到創紀錄的增長、融資和市值。祝賀第一屆data50的所有公司!

50家世界頂級資料初創公司一覽

推荐阅读

近期文章

新手教程

1什麼是區塊鏈？區塊鏈能做什麼？

2區塊鏈是如何運作的？

3區塊鏈和比特幣的關係？

4比特幣有什麼價值？

5如何購買比特幣？