数据时代的技术盛宴 大数据实践、工具、平台一个都不能少



  • QingCloud Insight 2016 在众多企业用户、生态合作伙伴、开发者、技术爱好者及媒体朋友的关注和支持下圆满落幕,近 60 位嘉宾为大家带来丰富而精彩的前沿技术和实践经验分享,近 2000 名现场观众和数万名场外观众共同分享了这一技术与商业的思想盛宴。小编将在接下来的几天陆续献上六场专题论坛的内容简介与现场速记实录 ,高能预警,大家做好准备。

    0_1470371318396_upload-f7ddb6b6-72b8-4fee-a3c1-96ea831ec1cc
    QingCloud Insight 2016大会主会场

    除了新战略和新产品的重磅发布,QingCloud Insight最吸引人的莫过于为观众准备的六场干货十足的分论坛。我们邀请了50多位知名嘉宾和行业领袖倾力打造出《数据时代的技术与应用》、《新IT,新商业》、《乘云而起的互联网经济》、《多维共生的云计算生态》、《We,Developers》、《云时代的运维与安全》六大专题论坛,内容遍及云计算技术、生态、运维、安全、开发、应用、企业业务创新和战略转型等时下热门话题,力求为观众带来最真实的云计算应用实战经验。

    0_1470371330926_upload-ed6e03e9-91eb-4d7c-a59b-3314f01b1978
    数据时代的技术与应用 专题论坛座无虚席

    今天,小编就先为大家回顾一下《数据时代的技术与应用》分论坛所讲的内容。该专题向观众展示了以数据为核心的前沿技术与应用,内容涉及数据仓库、大数据、人工智能、机器学习、存储等领域的研发和实践成果。九合创投创始人王啸担任本场分论坛出品人兼主持人,他曾是“百度七剑客”创始团队成员,2011 年离开百度并创立九合创投,目前主要关注大数据及新兴IT领域,已投项目有星空琴行、36氪、下厨房、91金融、青云QingCloud、蓝犀牛、极客学院等。

    0_1470371344177_upload-06f76ba4-91c8-465b-bf0d-a45890ecdd99
    九合创投创始人王啸

    王啸认为互联网发展可以分成三个阶段。第一个阶段是传统的互联网,在中国这一阶段从2000年开始到2010年结束,历经了十年时间,主导应用就是我们熟悉的BAT,分别代表了搜索引擎、电商和即时通讯三大主流应用。第二个阶段是移动互联网,手机是典型的应用场景,随身移动、带有丰富的传感器、市场规模比PC互联网大10倍左右,现在已经进入成熟期。而第三个阶段他表示将是智能网的时代,该阶段最核心的特点是基于数据之上的智能,预计未来5-10年将会逐渐普及。

    智能网的基础是数据,没有数据的话,机器做不了判断,智能将无从谈起。而移动互联网的发展带来了大量越来越便宜的传感器,手机上的传感器可以接收到“天气、地理、运动”等各种各样的信息。基于这个基础,很多应用场景不断涌现出来。

    点击阅读王啸演讲实录和PPT

    大数据应用场景

    天气预报

    QingCloud Insight 2016 召开的前一天有个关于天气的小插曲。彩云天气说,大会当天是晴天;其他天气应用说,大会当天有雷雨。事实证明,彩云天气赢了。那么,更加精准的天气预报背后有哪些黑科技呢?

    天气能够被预测,起到最重要作用的就是数据。人类的第一个天气预报发生在1861年,英国一位舰长在英国沿岸部署了很多观测站,利用电报将这些观测站的数据传到后来的英国国家气象局前身,这些数据汇总起来通过一定的数学计算就能分析出天气的变化。后来又有了气象雷达、气象卫星,收集到的数据越来越多,人类的计算能力也越来越强,天气预报也变得越来越准。

    0_1470371359037_upload-9f871527-bf65-43a2-a898-0a0e117595a8
    彩云天气CTO苑明理

    但是彩云天气CTO苑明理在演讲中告诉我们:“传统的天气预报依然存在一个很大的问题,我们看天气预报的媒介通常是报纸、电视等公共平台,天气预报只能做到一点对多点的传播和预报,无法做到多对多的个性化。” 因此,从气象局和传统媒体获取的公共天气预报无法满足个人了解小颗粒的时间和空间范围内精准的天气信息的需求。

    0_1470371370038_upload-1e08a1bb-8059-410a-a9b7-e73f32e877a8

    作为一个只有15人的创业团队,彩云天气解决这一问题需要解决两个问题:

    1. 通过更加聪明的方法实现降维计算(传统的气象预测方法需要建立地理位置的三维网格模型,计算全局气象数据变量,只有超级计算机才能完成该体量的计算任务),既能保证趋势预测的相对准确,又能尽量减少计算量。为此,彩云天气将数学理论和计算机技术相结合,通过分析雷达图数据变化进行趋势预测和惰性求值的思想完美地平衡了计算量和预测的准确性问题;
    2. 实现个性化天气信息的送达。同传统媒介发布的天气预报相比,以App形式存在的互联网服务天然就具有解决这个问题的条件。但是很多气象信息应用本身没有气象数据信息分析的技术能力,只能『转播』专业的气象机构的预报结果,自然无法发挥互联网产品优势。而彩云天气不仅向每一个App用户推送其所在街道和未来若干小时的精准预报,而且更进一步地通过用手机用户反馈的方式众包了天气数据采集,让每个手机都变成观测站,实现更密集的数据采集和更低成本的运行 。

    那么在这样专业和有趣的大数据应用背后,有着怎样的IT架构和系统演化经验呢?欢迎阅读苑明理的演讲实录和PPT

    社交

    另一个典型的应用场景是社交,tataUFO利用大数据技术、个性化推荐,可以精准地帮助在校大学生找到和自己志趣相投的朋友。一个大学生遇到知己的可能性有多大呢?tataUFO CTO曹洪伟在演讲中介绍,现在全国有2800万大学生,以同城为例,北京有60万。如果你认为知己是唯一的,那这个概率就是1/60万。tataUFO的价值就是减少互相建立连接的机会成本。

    0_1470371390475_upload-f03ca912-2bb0-454e-a02e-959d2bee9ed9
    tataUFO CTO曹洪伟

    tataUFO有三大产品特色,第一是“十点匹配”,每天晚上22:00系统会推荐一个新朋友给你;第二是“闪聊”,增加和陌生人的沟通机会,可以自动生成话题,并把话题自动推送给用户。第三是发现式社交,主要是进行个性化内容推荐。

    这三大功能的背后便是tataUFO的各种数据,tataUFO每天有数十GB的数据增长,累计若干TB历史数据。这些数据包括日志、多媒体、文本、数据库等等多种来源。以“十点匹配”为例,通过数据,tataUFO可以看到用户的性别、年龄、姓名、家乡等静态数据,也能够看到用户看了什么、对什么内容感兴趣、和谁请求过好友等动态数据。经过聚类分析、相似性评分、过滤条件、优先条件的参数化,最终形成推荐理由。

    点击阅读曹洪伟的演讲实录和PPT

    大数据分析工具

    从上面的两个应用场景中我们可以看到,随着移动互联网、智能网的发展,我们获取的数据比以往任何时候都要多,数据的作用也变得越来越重要,大数据在社会、政治和商业等各个领域逐渐显示出威力,没有任何一个个人和产业能够逃过这个数据时代。而为了帮助企业更好的利用数据、掌握应用数据的技术,很多IT公司推出了各种大数据工具。在本次数据时代分论坛上,HashData CEO简丽荣、诸葛io 创始人/CEO孔淼、瓜子二手车首席科学家项亮、宝存科技技术总监徐伟、青云QingCloud 数据平台负责人周小四携各自的大数据平台,为观众带来了丰富的大数据应用经验分享。

    云端数据仓库的技术与应用——HashData

    数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理人员决策。因为面向主题集成的要求,数据仓库在很长一段时间内都是基于关系型数据库构建的。由于数据量的剧增,基于硬件升级、正向扩展的单机数据库正面临越来越严重的问题。

    0_1470371447615_upload-3512ea93-dac3-45f5-8f41-98d93aa62e87
    HashData CEO简丽荣

    因为Hadoop和Spark技术的兴起,很多人认为关系型数据仓库正一步步走向没落。HashData CEO简丽荣却认为数据仓库需要的并不是退出历史舞台,而是需要进行根本性的改变。云计算恰恰是从两方面促进了数据仓库的改变:一方面,随着企业把越来越多的应用部署到云上,这些应用产生了大量的数据。由于网络延迟和数据移植性的问题,把云上的数据迁回企业内部数据库进行商业分析,长期来看是非常不可取的,这意味着数据仓库上云是大势所趋。另一方面,云计算也可以给云端数据仓库解决传统数据仓库面临的问题提供了包括商业和技术上的坚实基础。

    HashData(中文名称酷克数据)是一家专注于云端数据库的初创公司,今年5月份,在青云QingCloud上推出了国内第一个基于PostgreSQL和Greenplum Database的SQL-on-Cloud解决方案——HashData数据仓库,这是一个高性能、完全托管的PB级数据仓库。

    点击阅读简丽荣的演讲实录和PPT

    提高企业数据分析效率的数据平台——诸葛io

    诸葛io 创始人/CEO孔淼在演讲中讲到,从1990年到2016年,我们的数据平台经历了三次浪潮。第一波浪潮时还是集中式的软件时代,存储非常昂贵,虽然已经有了数据分析的概念,但应用非常少。当互联网开始爆发后,数据量越来越大,原有的架构无法支撑。但是这个时代存储成本越来越低,计算能力越来越高,第二波浪潮就随之而来。在数据爆发以后,第一要素是将数据采集整合存储起来,因为数据量很大,传统关系型数据库面临很多问题,NoSQL、FPP、SVS等分布式的存储方式开始流行,以Hadoop、Spark、Kafka为代表的大数据平台得到了广泛应用。这个时代还有一个问题,就是过去数据采集起来后就放在那里,偶尔进行一下分析。但现在企业的很多决策都需要大数据分析得出,这就要求数据不仅要存下来,还要做决策和洞察,第三波浪潮到来。

    0_1470371461771_upload-c86081e3-bf7d-40a9-b325-171282a34033
    诸葛io 创始人/CEO孔淼

    第三代数据平台概念又被称为DI(Data Intelligence)。和我们熟悉的BI区别在哪呢?BI是基于企业的业务模型,采集数据,构建一套架构,支持团队分析。而DI是对整个业务架构都不透明,是端对端的,可以让不同业务人员直接参加决策。诸葛io就是第三代的数据平台。可以帮大家做很多业务上的洞察。简单来讲诸葛io是一个客户中心化和分析去中心化的数据智能平台。可以对安卓、iOS、网站、server API等SDK进行采集数据,进行一些独立的用户行为跟踪,并且有非常灵活的事件模型,可以把这些行为用户标签化。

    点击阅读孔淼的演讲实录和PPT

    分布式机器学习算法及解决方案

    在数据时代分论坛中,我们还邀请了国内推荐系统领域中理论与实践并重的专家——项亮,他先是带观众们回顾过去几年分布式机器学习的发展,介绍了Naive Bayes、频率学派和贝叶斯学派几个典型机器学习算法。然后从早期的 Map Reduce 、MPI到近年的 Parameter Server三种常用解决方案做了详细介绍,并说明了各个解决方案的优劣势。

    0_1470371585882_upload-b6d77cdf-fb3b-4dac-91ff-165c930911c3
    项亮

    最后,项亮还提到了机器学习的部署平台。目前最流行的平台有两个,一个是Yarn,另一个是Mesos。Yarn比较适合离线训练,不适合长时服务。是无迭代、统计类的算法。Mesos的好处是同时支持离线训练和在线训练。以前大部分机器学习的做法是把今天零点之前的所有日志都扒出来,训练一个模型并把模型上线,今天一天都用这个模型。而在线训练中,训练样本是根据打点的日志,日志一来,就立即在线进行训练。

    点击阅读项亮的演讲实录和PPT

    全维度覆盖——QingCloud 大数据平台

    终于说到自家平台了,大家以前对QingCloud了解比较多的都是IaaS,但其实这两年QingCloud也提供了非常丰富的PaaS服务。青云QingCloud 数据平台负责人周小四在分享中表示:“当初我们做PaaS的时候是深思熟虑过的,最后决定从最擅长的运维领域出发,并且它对用户来说是非常管用的,是马上可以用到的,能够很快解决他们的痛点。从过去两年的情况来看,这条路走对了。”

    0_1470371475084_upload-f93d0eab-76ca-4d2b-b806-d15532fd7e72
    青云QingCloud 数据平台负责人周小四

    目前QingCloud主要提供了两类PaaS服务:一类是数据库与缓存,还有一类是大数据平台。数据库包括MySQL、PostgreSQL、NoSQL(就是MongoDB),缓存有Redis 、Memcached。大数据平台包括Hadoop、Spark、Zookeeper、Kafka、Storm、Elasticsearch、Hive等。如果从另外一个维度分类,大数据可以分为MapReduce系列、SQL和NoSQL系列。从数据处理的顺序来说,又可以分为采集、传输、存储、计算、展现和管理。不管是哪一个维度,我们都希望在每一个环节都做到全覆盖。

    点击阅读周小四的演讲实录和PPT

    数据平台高效的基石——PCIe SSD

    最后一位演讲的是宝存科技技术总监徐伟,他们主打的产品是PCIe SSD,为什么数据时代分论坛会有硬件厂商来分享呢?原因很简单,一切数据平台都需要存储做支撑。徐伟说,SSD由于非常高的存储性能,现在已经全面应用于数据中心中,QingCloud的IaaS也大量使用了SSD存储,未来还将不断扩大应用规模。

    众所周知,在IaaS中虚拟化是对物理主机CPU、内存、存储的不断瓜分,目前的CPU、内存可以做到很大,也许可以分出几百个虚拟机,但是传统存储的IO性能有瓶颈,当IO延迟特别大时,数据库的请求迟迟不能返回,自己就会先崩溃掉。PaaS典型的应用RDS对IOPS的要求也远高于带宽。

    0_1470371508975_upload-ad945e4f-8ffa-411a-9237-c05de9d0fe3d
    宝存科技技术总监徐伟

    徐伟详细介绍了宝存科技特有的企业级PCIe SSD技术是如何在创造超大容量、超高性能、超低延迟的产品的同时,又能够满足云服务提供商定制化的需求、提供更高的可控性和创造更低的成本空间。

    点击阅读徐伟的演讲实录和PPT

    好了,以上就是《数据时代的技术与应用》分论坛的所有演讲。由于篇幅所限,小编也只能带大家走马观花式的简略回顾总结一下。对于没有机会到现场听演讲的小伙伴们,小编将在接下来的几天逐步献上各个演讲的速记实录,帮助大家学习了解。也请大家持续关注我们的公众号!


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待