一般来说,从收集到利用的整个流程中,大数据一共包括了四部分过程,这四部分包括,大数据采集、大数据预处理、大数据存储、大数据分析等四个主要阶段。通过这四个阶段,企业就可以实现对用户进行精准营销,针对性提供服务等,随着DT时代的到来,大数据的使用会越来越广泛。
大数据采集
大数据采集其实就是对海量数据的搜集,大数据采集人员会通过数据库、爬虫、日志、记录等多种方式采集不同来源、不同方面的数据,举个例子,采集人员可以通过爬取网页数据的形式采集关键词、可以调取订单记录获取用户购买信息、可以查询数据库日志记录行为信息,也可以访问业务系统数据库获得客户业务数据。
大数据预处理
大数据采集的数据通常都是不同来源、不同格式等不能直接利用的信息,必须经过大数据预处理进行统一规范化,提高数据的质量,方便日后进行利用。
就拿派可数据BI中包含的数据仓库来举个例子,企业完成大数据采集后,可以利用ETL过程对数据进行处理,排除错误数据,将可以使用的数据以统一的规范,进行建模指标分类后存储到数据仓库中,也正因为经过了ETL处理,这时数据质量已经有了质的提升,可以被企业直接利用。
大数据存储
大数据存储可以使用基于Hadoop的技术扩展进行封装能够对一些难以处理的数据和场景进行存储,同时因为Hadoop是开源的框架,所以企业可以利用开源的优势,借助其他相关的模型,架构衍生出相关大数据技术的过程。
大数据分析
企业对大数据的利用主要是通过数据分析、可视化分析等方式。数据分析人员根据采集存储得到的大数据对用户营销推广、业务发展状况、活动复盘预测等。同时分析人员也可以借助可视化工具或者商业智能BI,通过图形化的手段,制作可视化报表清晰有效地传达信息,对各种数据进行信息化的展现。
按照数据结构分类,可以分为结构化数据(表格),非结构化数据(视频,音频,图像),半结构化数据(如模型文档等)。
按照应用场景可以分为工业数据和消费数据两大类,工业数据主要是指生产制造企业从研发设计,生产制造,经营管理,客户服务等环节的数据。消费数据主要面向客户或者需求,比如客户喜好,客户评价,市场分布,仓储率等
按照数据重要程度可以分为,脏数据,低质数据,高质数据以及核心数据,这个就需要结合企业业务需求自行界定
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [6] 大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据最核心的价值就是在于对于海量数据进行存储和分析;大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的。再比如精准营销、百度的推广、淘宝的喜欢推荐,或者你到了一个地方,自动给你推荐周边的消费设施等等。