概述:
此分享是关于阿里研究中心:大数据时代的分享汇总
分享点:
大数据4V:大量(Volume);多样(Variety);快速(Velocity)和价值(Value)数据是资产,云为数据资产提供存储、访问和计算数据来源:互联网企业:SNS、微博、视频网站、电子商务网站物联网、移动设备、终端中的商品、个人位置、传感器采集的数据联通、移动、电信等通信和互联网运营商天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据等金融行业大数据对信息化影响:传统软件开发流程敏捷开发(快速演进)企业信息化不只是订单系统上线,订单处理也需自动化跟上通过分析师对一系列的数据、行为的分析后才能得到用户需求大数据的方向:云计算是基础设施架构大数据是灵魂资产分析、挖掘是手段发现和预测是最终目标
大数据相关技术:
分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储:结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据:图片、视频、word、pdf、ppt等文件存储不利于检索半结构化数据:转换为结构化存储和按照非结构化存储存储问题解决方案:NoSQL技术: HDFS, HBASE, OceanBase, MongoDB等计算:因结构变化为导致计算模式变更需求模式变化带来的计算碰到瓶颈解决方案:MapReduce技术和流计算(twitter的storm和yahoo!的S4)
更多详情参见附件