
在噪聲中堅持做難而正確的事。
作者|劉楊楠
編輯|栗子
具身智能行業,數據一直是關鍵卡點。模型廠商需要大量來自物理世界的真實數據訓練模型,讓機器人變得更聰明,能夠更快走進家庭和工廠。
于是,各方大建數采中心,具身數據正在越來越多,一些公司則定下了在2026年發布百萬小時級數據集的目標。
然而,在這海量的數據中,真正能用于訓練具身模型,讓機器人“聰明”起來的數據,卻仍然稀缺。因為大多數數據處于一種“混沌狀態”:時間戳無法對齊、模態不同步、標注信息不完整、數據結構不統一。
造成這種“混沌”的原因很復雜,目前已經有一些初創企業開始在其中尋找解法。2025年12月成立的智域基石,正是其中十分有特色的一家。
智域基石提出了“數據編譯”的全新理念,把在軟件工程領域已經成熟的“編譯”概念引入具身智能數據處理,搭建了一套包含“質檢、底座、編譯、檢索、交付”五個環節的數據編譯管線。
這套管線既不是傳統的數據標注,也不同于自動駕駛的數據清洗,它是一個需要同時理解機器人本體、具身模型算法以及大數據工程的數據新基建。
目前,智域基石已完成數千萬元天使輪融資,本輪投資方由四家代表性機器人廠商——靈初智能、穹徹智能、浙江人形、智平方(拼音序),以及紫江集團控股的紫竹高新區旗下VC投資管理平臺小苗朗程共同構成。
近期,「甲子光年」與智域基石CEO楊哲軒、CTO徐良威、COO張計業進行了一次深度交流,試圖理清在具身智能這場漫長的競賽中,智域基石選擇的數據編譯賽道,究竟是一門怎樣的生意,又將走向何方?
1.具身智能需要“數據編譯”
楊哲軒進入具身智能行業的時間不算長。

從左至右依次為智域基石COO張計業、CEO楊哲軒、CTO徐良威,圖片來源:智域基石
徐良威有騰訊、小鵬機器人的從業背景,是實戰經驗豐富的機器人軟硬件專家,熟悉具身智能算法對于數據的需求,也有豐富硬件落地的經驗。張計業則為前華為地市總經理,曾擔任具身智能公司穹徹智能生態負責人。
三個人在行業里觀察了將近兩年。他們注意到,整個具身智能領域的“投入產出比”并不可觀。2023 年,資本大量涌入具身智能賽道,投模型、投本體、投零部件,但真正在產業端落地的成果卻乏善可陳——無論工業場景還是家庭場景,并未出現特別亮眼的突破。
在楊哲軒看來,具身智能之所以難以落地,本質上在于它與物理世界的交互方式與大語言模型或自動駕駛完全不同。
“大語言模型的突破背后,有一個容易被忽視的前提,它是有數據的。”楊哲軒向「甲子光年」解釋,“GPT-3.5出來之后,國內投了幾百億,很快模型廠商就有所突破。為什么?因為算法是成熟的,算力雖然緊張但不會成為核心矛盾,關鍵在于數據已經存在了。”
自動駕駛也是類似的邏輯。道路資源由政府提供,作為一種普惠的基建存在,主機廠只需把車改造后上路,汽車行駛過程中自然能夠進行數據采集,幾乎沒有過多額外的數據采集成本。
“但具身智能不同。”楊哲軒說,“它是所謂的‘千行萬業’,每進入一個場景都有成本、有門檻,因為你要跟物理世界接觸,要采數據、要跟人溝通、要處理各種價值分配關系。”
因此,場景越是碎片化,單一模型公司或本體廠商自建數采體系的邊際成本就越高。 一家做工業揀選的公司,很難為了訓練一個擰螺絲的技能,再去打通一個五金車間的入場權;一家做家庭陪伴的公司,也很難為了一次廚房場景的數據采集,去解決千家萬戶的隱私授權問題。
物理世界的非標與封閉,決定了大多數玩家很難靠“自給自足”拿到所需場景的高質量數據。正是基于這一判斷,三人在一個月內迅速達成共識:在物理世界的勞動與數字世界的模型之間,必須生長出一個獨立的中間層,一個專門做具身智能數據的“編譯層”。
這一層不參與模型的路線之爭,也不介入本體的硬件博弈,只專注于一件事:用工程化的技術手段,把真實場景中碎片化的物理交互數據,轉化為模型可消化、可執行的通用養料。
2.“數據編譯”難在哪?
或許有人會疑惑,自動駕駛或大語言模型訓練也需要大量數據標注工作,所謂“數據編譯”是否只是換湯不換藥?
對此,徐良威解釋道,機器人訓練所需的數據和自動駕駛、CV模型或NLP模型所需的數據類型有本質不同。
后者數據類型相對單一,通常使用標準化腳本或者線性管道,就能把原始數據變成模型可用的格式。但具身智能需要的數據的兩個特點使得數據處理難度極大提升:第一是數據種類的多模態;第二,任務結構和操作語義的非標準化。
目前,合成數據、遙操數據、真機數據、人類數據(Ego Centric 數據)是常見的四類數據類型。
在楊哲軒看來,數據的價值取決于訓練的目標維度。
如果從“直接教機器人動起來”這個角度看,機器人遙操數據仍然是最直接有效的。因為它們有動作監督,跟機器人執行空間更近。
如果從“讓模型變聰明、懂任務、懂交互、懂長程邏輯”這個角度看,人類數據(Ego Centric數據)的價值會越來越大。因為機器人未來不可能只靠昂貴真機數據堆出認知能力。
如果從“做規模化擴張”這個角度看,仿真與合成數據不可或缺,但不能脫離真實世界校準。它更適合擴張、補長尾、做壓測;但如果沒有真機閉環,仿真很容易越做越漂亮、越做越脫離交付。
因此,楊哲軒認為,真正高效的機器人訓練數據不會只押一種形態,需要構建一套完整的“數據配方”——用第一人稱/互聯網數據學語義和技能先驗;用遙操作數據學動作映射;用仿真數據擴展覆蓋面;用真機數據完成最終校準與閉環。
這個過程中,“關鍵問題不是比例,而是什么數據在什么階段最有價值。”徐良威補充道。
事實上, 這個關鍵判斷已經成為一種行業層面的共識。今年年初人類數據的爆發,是這項行業新共識的有力印證。
無論是π0.6還是Generalist Intelligence 1(GEN-1),都讓行業看到了一個共同結論:模型要具備泛化能力,要提高成功率,必須依靠多層面、多階段、多級別的數據。
為此,在智域基石的編譯管線中,人類(Ego-Centric)數據在管線中的重要性會越來越高。因為Ego-Centric數據正在補足機器人和物理世界交互的空缺。
智域基石正在自研Ego-Centric采集設備,試圖從四個維度采集多模態、多維度、全方位的信息,涵蓋本體(人/機器人)、工具(手/夾爪/靈巧手)、物體(操作對象)、環境(空間重建)四個方面。
以“拿杯子”的場景為例,一個人用手去拿一個杯子,手和杯子之間產生了接觸關系。對應到機器人,就是夾爪或靈巧手去操作杯子。Ego-Centric設備要做的,是同時采集人看到的信息、聽到的信息、觸摸到的信息,以及環境的空間重建信息。“這樣才能產生一套完整的數據對應關系。”徐良威說。
然而,人類數據比傳統真機數據更難處理。
“二者本質上沒有區別,都是真實數據,即發生在物理世界中、與環境有交互的數據。”徐良威解釋,“但Ego-Centric需要更多的算子來支持從中提取結構和語義信息。因為它是通過人的第一視角來觀測,通過人使用工具的決策來訓練模型,這中間有一個‘翻譯’的過程。”
機器人訓練對數據的苛刻需求,使得傳統數據標注模式已然失效。
數據標注是勞動密集型的工作,壁壘在于人力成本和管理效率;數據編譯是技術驅動的工作,壁壘在于整個管線的算法能力和系統工程能力。
智域基石正希望構建整套數據編譯管線,把多種類的數據變成大多數模型可以直接使用的格式。就像此前C語言、Go語言、Rust語言,最終全都被編譯成Windows、Mac或Linux可以運行的程序。
不過,在智域基石的編譯管線中,真機遙操示教數據和人類第一視角數據將共同存在,瞄準不同的模型訓練需求。真機遙操示教數據瞄準后訓練或者是類似π0.6的異構訓練的需求,人類數據則瞄準模型的預訓練。正如GEN-1所展現的那樣,基于新一代VLA架構的思路,把連續物理交互當成一等公民來建模,可穿戴設備在物理世界的交互作為模型的燃料。
但要做成這件事,并不容易。
因為具身智能的數據處理天然位于“機器人硬件、模型算法、大數據工程”三者交匯處的空白地帶。
隨著具身智能數據量級正迎來指數級的躍升,“懂算法的不懂工程量產,懂量產的不懂機器人硬件”的結構性錯位,不僅推高了行業的試錯成本,更成為了制約具身大模型跨越物理鴻溝的最大掣肘。
而智域基石的團隊稟賦,決定了他們具備打造具身智能數據“新基建”的先決條件。智平方曾對智域基石給予高度評價。他們認為,智域基石的核心優勢,不只是做數據,更在于能把真實場景中的數據采集、加工和終端反饋閉環持續跑通,這對于具身智能產品迭代來說,具備非常現實的協同價值 。
目前,智域基石正在搭建了一條完整的數據編譯管線,并已獲得市場初步認可。
3.具身智能的“數據編譯”怎么做?
智域基石搭建的數據編譯管線包含五個關鍵環節,分別為“數據質檢-數據底座重構-數據編譯-智能檢索與組配-標準化打包與彈性交付”。
其中,第一環是數據質檢,但它的重要性長期被行業忽視。
原始傳感器數據被記錄下來后,首先要面臨一道全量篩查,例如攝像頭是否丟幀、IMU是否漂移、關節數據是否完整。
不同于行業內因成本所迫而普遍采用的抽檢模式,智域基石通過云原生分布式架構,將質檢拆分為細粒度計算單元,在可控成本內完成對每一幀數據的“來料檢測”。
楊哲軒補充道,這種將質檢還原為分布式計算問題的思路,使得同等自動化水平下的資源成本僅為傳統方案的三分之一甚至更低。
質檢通過的數據,會進入具身數據底座。底座環節的核心任務是時空對齊。
時間對齊相對容易理解,需要將不同頻率的數據統一時間基準。攝像頭可能是15Hz或30Hz,IMU可能是200Hz甚至500Hz,底座需要將這些不同頻率的數據在時間維度上對齊,確保每一時刻的數據都能準確對應。
空間對齊則更復雜。機器人與物理世界交互時,需要知道“手在哪里”“眼睛在哪里”“操作對象在哪里”,這些信息都必須通過設備外參來進行坐標系變換,對齊到唯一的物理空間中。“對齊之后,數據就從散亂的、無規則的狀態,變成相對有序的、可被后處理的數據了。”徐良威說。
在底座進行時空對齊后,數據就正式進入“編譯”環節,這是整套管線的“靈魂”。
徐良威解釋道,底座解決的是幾何與時間上的對齊,但數據此時仍不具備語義信息。
編譯環節的目標,就是從中提取出模型真正可用的特征。以機器人拿起杯子的任務場景為例,智域基石的數據編譯能力不只是標注“用左手拿起杯子”的動作標簽,更包括杯子在桌面上的位置、周圍物體關系、抓取意圖乃至從視覺數據中推理出的接觸狀態。
數據編譯的本質,是讓原始數據產生出原本無法直接表達的語義與物理交互信息。
編譯完成后,數據進入第四個環節——檢索。這是影響數據交付效率的關鍵環節。
從全國甚至全球采集數據,涵蓋數千上萬種場景和操作對象,組合之后的數據種類是這個數字的無數倍。面對這樣的數據海洋,模型公司需要從中精準挑選出特定場景、特定物體、特定技能的數據包,用于模型訓練任務。這不僅是具身智能問題,也是一個復雜的大數據工程問題。
智域基石通過自研的查詢引擎,用類似SQL的方式,每一份數據都帶著豐富的元數據和語義標簽,讓客戶能夠從海量數據中高效定位所需素材。
最后一個環節是交付。檢索與組配完成后,系統會將提取出的結構化片段自動打包為帶版本號(如 v2.4.0)的標準化訓練數據集,實現開箱即用。
面對單次交付動輒數百TB的超大規模數據體量,智域基石還構建了一套彈性交付體系:既支持兼容S3等云原生協議的專線直連與授權調用,也能針對極高安全等級的場景,采用高吞吐的物理陣列(硬盤)進行線下流轉。
這種雙軌并行的資產分發模式,徹底打通了從數據精煉廠到客戶算力集群之間的“最后一公里”。
這條管線的核心能力也備受投資人認可。穹徹智能曾評價道,智域基石的價值不只是補充數據供給,更在于“能夠把分散的場景需求沉淀為可標準化、可加工、可持續復用的數據資產”。靈初智能同樣看重其“將雜亂數據自動化編譯成能直接提升任務成功率的高質量訓練輸入”的能力。
拆解智域基石的數據編譯管線后,「甲子光年」發現,數據編譯帶來的商業想象力,不止在于數據交易的一錘子買賣,其本質是向模型或本體公司提供一種可持續迭代的“數據服務”。其中,涵蓋三個極具張力的增長飛輪:
首先是技術重構帶來的復利效應。 編譯管線每成熟一分,處理新數據的邊際成本便遞減一分,這是一條典型的知識與技術復利曲線。
其次是搶占定義具身智能數據標準的先機。 當模型廠商的訓練代碼開始依賴于特定的數據格式與接口規范,遷移的成本將不僅是金錢,更是時間與工程重構的隱性代價。
最后則是更長期的生態價值。 一旦成為具身智能領域事實上的“數據格式定義者”,平臺將真正成為連接上游物理世界與下游數字智能的必經閥門,其粘性將隨生態繁榮呈指數級躍升。
從這個意義上說,智域基石這套數據編譯管線已經具備了“具身智能數據新基建”的初級形態。而真正讓它從“形態”走向“實質”的,是能否在真金白銀的商業訂單中跑通閉環。
至少在這一點上,成立僅四個月的智域基石已經交出了第一份答卷。
4.從工業場景切入,搶占數據入口
目前,智域基石成立僅4個月,但到手訂單已達近億元規模。
其中,天使輪的四家產業股東貢獻了首批需求。但楊哲軒強調,公司客戶來源不止于此,目前正在推進與更多模型廠商或場景方的合作。楊哲軒坦誠地說,“作為一家數據公司,從一開始就有客戶,是非常重要的。”
因為數據本身不是產品,只有在真實的模型訓練任務中被驗證為“有效輸入”之后,它才能真正釋放價值。 一家沒有客戶錨點的數據公司,極易陷入“拿著錘子找釘子”的技術盲區,采回來的數據不知為誰所用,也不知是否符合最新的算法需求,最終淪為數據廢料。
而智域基石將客戶需求前置到公司搭建數據管線的過程中,股東中的四家具身智能企業既是出資方,也是需求定義方。這意味著,智域基石的數據編譯管線從設計之初就在真實的模型訓練任務中打磨,并非閉門造車。
在落地場景方面,智域基石選擇從工業場景切入。
在楊哲軒看來,工業場景的邊界清晰、任務結構化、容錯空間明確,更適配具身智能當前的技術成熟度曲線。
對于公司的發展路徑,智域基石規劃了清晰的三個階段。
第一階段是2026-2027年,核心任務是搶占數據入口。 具體策略是通過為頭部客戶提供定制化的結構化訓練輸入,建立市場口碑和信任關系。這個階段的關鍵指標是場景覆蓋度和數據質量,在真實客戶需求中打磨管線,建立標準化的數據處理流程。
第二階段是2027-2029年,目標是標準化資產訂閱。 當編譯管線足夠成熟之后,數據的組織方式、元數據格式、索引結構都可以標準化。客戶不再需要定制化開發,而是可以選擇訂閱特定類型的標準化數據資產。
這個階段也是整個商業路徑中最難的一步。因為它要求數據處理能力足夠成熟,能夠在算法路線快速變化的具身智能行業中保持穩定輸出。
第三階段是2029年之后,目標是開放API和開發者生態。 屆時,智域基石的數據編譯能力可能以API的形式對外輸出,第三方開發者可以在平臺上構建自己的數據處理工具和應用。
這條清晰的路線圖,是智域基石對自身未來的規劃。但通往終點的賽道,從來不會只有一位參賽者。
「甲子光年」梳理發現,當前具身智能數據賽道上至少已擠入四類玩家:
本體公司自建數采團隊(如智元、宇樹),優勢是離場景近,劣勢是缺乏規模效應與跨本體通用性;互聯網大廠入局(如京東),挑戰在于大廠的組織架構能否適應數據精細化運營的“臟活累活”;傳統數據標注公司轉型,有人力管理經驗但缺乏機器人領域的垂直認知;以及與智域基石正面交鋒的同類數據創業公司。
對于越發擁擠的賽道,楊哲軒的態度出奇平靜。他希望行業不要過早關注競爭。“我們更關注怎么幫助具身智能進入工業場景,怎么讓增量資金進入行業。競爭是之后的事情。”他說。
在決定投資智域基石之前,小苗朗程內部對具身智能數據賽道有過一次全面評估。小苗朗程發現,當前國內約有一百家具身智能企業、大廠和產業方在自研硬件、嘗試采集數據,整個產業在重復造輪子,效率低下。本質是缺乏第三方能提供跨本體、跨各類模型需求的高質量數據,智域基石是業內少有的既具備技術能力、商業前瞻性、又有清晰階段性落地思考的團隊。
而浙江人形認為:“智域基石最突出的價值,在于其復合型團隊能夠真正深入工業現場,打通數據入口、加工處理到終端場景驗證的完整鏈路。這種面向工業落地的系統能力,能夠與浙江人形形成高效協同,共同推動人形機器人在真實場景中的訓練與落地。”
談及公司的核心壁壘,楊哲軒短暫思索后,給出了兩個答案:
“一是品味。我們全員都配備頂級AI Coding Agent的研發人員,連行政都要求有AI Native的工作習慣。我們積極擁抱領先的工具,并把它轉化為日常工作的一部分。二是團隊,一個尊重事實、敢于自我批判和迭代的團隊。我們不強求一開始就正確,但要求能夠快速發現問題、修正方向。”
事實上,這也是「甲子光年」在這家成立僅數月的公司身上所看到的,一種在當下具身領域十分稀缺的冷靜與務實。
他們描繪了一幅關于具身智能數據基礎設施的宏大愿景,站在具身數據這個全社會高度關注的風口上,但具體到落地上,他們沒有夸張的融資PPT,也沒有激動人心的愿景宣言,創始團隊似乎并不喜講述太多關于“未來”的故事,更希望聚焦當下的每一步——打磨技術、 一步一個腳印地拿下訂單。
“講故事講到最后,如果沒有真正創造價值,行業也就沒了。”楊哲軒說。這或許正是智域基石的生存哲學:在風口上保持清醒,在噪聲中堅持做難而正確的事。
(封面圖來源:AI生成)