摘要:
大數據技術的運用仍存在一些困難與挑戰,體現在大數據挖掘的四個環節中。首先在數據收集方面。要對來自網絡包括物聯網和機構信息系統的數據附上時空標志,去偽存真,盡可能收集異源甚至是異構的數據,必要時還可與歷史數據對照,多角度驗證數據的全面性和可信性。其次是數據存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術,在存儲時要按照一定規則對數據進行分類,通過過濾和去重,減少存儲量,同時加入便于日后檢索的標簽。第三是數據處理。有些行業的數據涉及上百個參數,其復雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,難以用傳統的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數據降維后度量與處理,利用上下文關聯進行語義分析,從大量動態而且可能是模棱兩可的數據中綜合信息,并導出可理解的內容。第四是結果的可視化呈現,使結果更直觀以便于洞察。目前,盡管計算機智能化有了很大進步,但還只能針對小規模、有結構或類結構的數據進行分析,談不上深層次的數據挖掘,現有的數據挖掘算法在不同行業中難以通用。
大數據技術的運用仍存在一些困難與挑戰,體現在大數據挖掘的四個環節中。首先在數據收集方面。要對來自網絡包括物聯網和機構信息系統的數據附上時空標志,去偽存真,盡可能收集異源甚至是異構的數據,必要時還可與歷史數據對照,多角度驗證數據的全面性和可信性。其次是數據存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術,在存儲時要按照一定規則對數據進行分類,通過過濾和去重,減少存儲量,同時加入便于日后檢索的標簽。第三是數據處理。有些行業的數據涉及上百個參數,其復雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,難以用傳統的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數據降維后度量與處理,利用上下文關聯進行語義分析,從大量動態而且可能是模棱兩可的數據中綜合信息,并導出可理解的內容。第四是結果的可視化呈現,使結果更直觀以便于洞察。目前,盡管計算機智能化有了很大進步,但還只能針對小規模、有結構或類結構的數據進行分析,談不上深層次的數據挖掘,現有的數據挖掘算法在不同行業中難以通用。