:::

產業技術評析

資料處理服務之未來需求與技術趨勢分析
發表日期:2017-09-06
作者:周駿呈(工研院IEK)
摘要:
隨著資料經濟時代的興起,不論是販售資料集、提供資料預測分析的資料服務業者,抑或是運用資料改進自家產品服務的各類企業用戶,均須面臨越來越多與資料清理、資料整合、資料轉換的資料前置處理問題,以便為善用資料做好妥善的準備。

全文:

一、資料來源日趨複雜多元,驅動資料處理服務需求成長
 

隨著資料經濟時代的興起,不論是販售資料集、提供資料預測分析的資料服務業者,抑或是運用資料改進自家產品服務的各類企業用戶(如台積電分析生產線大數據以改善晶圓製程良率),均須面臨越來越多與資料清理(Data Cleansing)、資料整合(Data Integration)、資料轉換(Data Transformation)的資料前置處理(Data Preparation)問題,以便為善用資料做好妥善的準備。
 

對所有的資料使用者來說,「資料處理」就像餐廳每一道菜餚烹調完成前,必要的洗菜、挑菜與切菜等前置作業,雖非是各家公司的核心產品或服務,卻是每天必須面對的且擺脫不掉的日常工作,故業者必須思考該如何運作,方可兼顧運作效率與投入成本,以提振公司整體營運績效。整體而言,資料處理作業可能衍生之基本問題痛點大致有以下兩點:
 

● 處理作業耗時且成本高:依據國內資料服務業者訪談結果,資料處理雖非其核心業務,然該作業往往就占掉其整體開發計畫近八成的投入時間,特別是當接取的資料來源很多且複雜時,就需要投入更多人力進行系統對接與資料清理、整合與轉換等前置處理工作;且後續維運成本高(資料儲存設備、維運成本)。
 

● 處理效率與效果不佳:依據國內資料服務業者訪談結果,約有40%的萃取(extract)、轉換(transform)與載入(load)的ETL過程需手動操作且容易出錯;此外資料的累積、轉置與重新載入都需要耗費時間與資源,往往影響資料處理效果。
 

而隨著資料加值應用需求之多樣性,企業應用所需介接之資料來源日益多元(如公司內部之ERP、CRM等企業資料庫以及物聯網、行動裝置、社群媒體網路等外部資料源)且資料格式漸趨複雜(如結構化非結構化;文字/數字影像/圖片),在在增加資料處理之困難度,因此,專業的資料處理服務也因此大趨勢帶動而逐漸成長。以下將簡介相關資料處理技術趨勢與代表性資料服務業者發展現況,以供國內相關服務業者參考。
 

二、資料處理應用之技術發展趨勢
 

「資料處理」服務的關鍵價值在於提供高效率、低成本的資料處理服務,且同時須能確保處理後之資料品質。過往的「資料處理」服務只要能協助客戶完成資料清理、整合、轉換等傳統資料前置處理作業即可,然隨著資料來源複雜且資料量倍增,如何進一步提供資料串接(Data Linking)、資料搜尋(Data Searching)與資料推薦(Data Recommendation)等附加服務,已成為資料處理服務業者未來必備的核心能力。而欲具備上述核心能力的關鍵即是需有語意分析(Semantic Analysis)之技術能力,因為客戶所擁有的資料均來自於不同資料庫,各資料集所使用之詮釋資料(Metadata)、字彙(Vocabulary)、格式(Format)不盡相同,亦即跨資料庫之間並無一致的資料互通性標準,除了使得資料使用者須面臨資料清理與轉換等額外資料處理成本外,也將因資料定義未通而發生運用關鍵字搜尋資料時,容易產生資料遺漏或是錯誤之問題。因此,為克服上述問題,國際上目前已開始有標竿業者運用全球資訊網協會(World Wide Web Consortium, W3C)所制定之語意網技術標準(如Data Catalog Vocabulary, DCAT),以開發基於語意網分析技術之資料處理方法,運用更有效率且從聰明的方法協助客戶整合企業內外部資料。主要用途可分為兩大類,一為透過詮釋資料之標註與分類,將多重來源之資料結構化,以加速資料處理作業;二則為運用語意網標註、鏈結技術串接格式複雜且多元資料源之內外部資料庫,以利資料混搭應用與分析,下圖即簡要說明該類技術之發展現況。
 

圖1 基於語意網分析技術之資料處理服務示意圖

資料來源:IEK IT IS研究團隊 (2017/07)
圖1 基於語意網分析技術之資料處理服務示意圖
 

三、代表性服務業者Capsenta之資料處理服務產品介紹
 

Capsenta被Gartner評鑑為2016年資料整合與資料品質的最酷供應商(Cool Vendors in Data Integration and Data Quality)。該公司成立於2012年,係美國德州大學奧斯汀分校電腦科學系的技轉公司,總部設於美國德克薩斯州首府奧斯汀(Austin, TX, USA),目前員工數約有10人,主要投資者為Houston Angel Network。
 

該公司的資料處理服務產品名為Ultrawrap平台,係運用語意分析技術(包括建立特定應用領域之Vocabulary、Taxonomy、Ontology、RDF等關鍵資料集資源)以將資料轉化成知識圖象(Knowledge Graph),在不需要中央資料平台的前提之下,可虛擬整合多方來源的各式資料,有效改善搜尋、分析與詮釋。該服務平台具有以下幾項特色:
 

● 異質資料源融合(Data Fusion):使用者可運用視覺化之操作介面,搭配機器學習與特定應用領域之語意網(Semantic Web)分析技術,可迅速針對各種來源的資料進行語意搜尋(Semantic Search)並統整不同來源之內外部資料庫,以解決資料格式不一、重複或不正確等資料處理需求
 

● NoETL(Extract-Transform-Load):在不需要資料倉儲(Data Warehouse)的前提下,可動態整合資料,使用常見的關鍵字、企業字彙與片語來自動進行資料抓取、收集與編輯,縮短執行時間、減少擁有成本。
 

圖2  Capsenta 資料處理產品(Ultrawrap)之服務運作圖

資料來源:Capsenta;IEK IT IS研究團隊整理(2017/07)
圖2 Capsenta 資料處理產品(Ultrawrap)之服務運作圖
 

四、小結
 

相對國外發展而言,國內資料服務市場整體規模尚小,且多半企業並無資料加值應用思維,以致資料服務產業價值鏈專業分工並不明顯(如台灣目前專注於提供資料清理或資料處理的客製化服務公司數量極少);然而隨著資料應用所需之資料來源(企業內部資料、社群媒體、開放資料、物聯網…)日趨複雜、資料量龐大以及即時分析等趨勢變化,各種更專業之資料應用服務需求已逐漸浮現,不論是中小企業或是企業龍頭均須更客製化的專業資料服務,方可協助其營運步上軌道甚至超越同行。以半導體製造龍頭台積電為例,考量資料處理之作業效率與效能,即委外國內知名資料處理服務業者亦思科技,協助處理巨量且即時的複雜製程資料,並協助跨內外部IT系統(ERP/CRM…)之資料串接、整合等前置處理作業,以便內部之資料分析部門能專注於半導體製程良率改善與工廠生產效能優化等資料分析工作研發。因此隨著資料加值應用思維觀念之推動以及資料應用專業分工需求之浮現,未來國內資料服務市場之專業分工將逐漸成形,特別是專業的資料處理服務市場應有相當不錯之發展空間。
 

(本文作者為工研院IEK執行產業技術前瞻研究與知識服務計畫產業分析師)


* 點閱數1729
更新日期:2020-04-08

回上一頁 回首頁