消费 spending
您现在的位置:首页 > 消费 > “双十一”流量大考过关 流计算功不可没

新闻

振东制药达霏欣推出中药生发片:中西结合双管齐下,攻克脱发难题 振东制药达霏欣推出中药生发片:中西结合双管齐下...

近年来,脱发问题已成为困扰现代人的一大健康难题。无论是因压力、作息不规律还是遗传因素导致的头发稀...

商业

从连花清瘟的科研数据 管窥其抗甲流疗效 从连花清瘟的科研数据 管窥其抗甲流疗效

创新中药连花清瘟自“非典”研发以来,系统地开展了多项规范、严谨的实验研究与临床研究,围绕甲流等不同...

  • 民间资本融入抗癌、抗新冠药研发,促进民生福祉

    近日,位于广东惠州的台湾韦泰公司拟投资治疗癌症和新冠肺炎BA2.4.5的药物研发中心及药厂项目正式启动。 投资治疗癌症和新冠肺炎BA2.4.5的药物研发中心及药厂项目的韦泰公司 国家药品监督管理局发布了关于...

  • 国家发改委:培育数字经济新业态 鼓励灵活就业

    国家发展改革委表示,将开展数字经济新业态培育行动,在卫生健康、教育等领域培育新业态,实施灵活就业激励计划,降低灵活就业门槛,鼓励创新创业。 在卫生健康领域,探索推进互联网医疗医保首诊制和预约分诊...

  • 部分实体书店在外卖平台上线 买书几十分钟内可送达

    打开手机里的外卖平台App,搜索想找的书店,把想买的书加进“购物车”结算,几十分钟后,外卖小哥就会把书送到顾客手里。 疫情之下,实体书店面临着众多困难,但改变正在发生。近日,在北京、上海、成都等城市,...

区块链

启动元宇宙全球招聘 METAFX交易所打造全球级外汇交易所 启动元宇宙全球招聘 METAFX交易所打造全球级外汇交...

2022年4月1日,METAFX元宇宙外汇交易所正式启动全球战略,同步上线元宇宙招聘大厅,此次活动在上海进行...

  • 5G与人工智能联合赋能 智迅链演绎区块链技术无限可能

    作为当前最受关注的三大前沿技术,5G、人工智能、区块链无不吸引着全世界关注的目光。目前,5G和人工智能技术日趋成熟,商业应用不断落地,区块链技术也已上升为国家战略层面,各种政策利好持续释放,巨大的市场...

  • 广东省首个区块链融资担保项目落地

    近日,广东粤财投资控股有限公司(下称“粤财控股”)首期区块链+供应链融资担保业务“粤链通”成功落地,这是广东省首个区块链融资担保项目,也是粤财控股与蚂蚁金服共建区块链实验室的首个落地成果。3月20日,在粤...

  • 全球首个对标白银公有链生态BTR正式上线开启空投!

    全球首个对标白银公有链生态BTR(比特白银),将在UTC:2020年2月29日正式上线。并在BTC链619,536区块高度时获取比特币UTXO快照,对全网比特币持币地址进行1比1空投和赠送SID权限。BTR主链上线后,用户只需把在UT...

“双十一”流量大考过关 流计算功不可没

发布时间:2019/11/14 消费 浏览:458

如何扛住流量“洪峰”,是每年“双十一”的技术大考。随着流量的飙升,这一大考无疑变得越来越难。
“双十一”刚过,各大电商纷纷公布当日战绩。从目前公布的数据不难看出,今年“双十一”的订单创建量峰值创下新高,单日数据处理量纪录也再次被刷新。
“双十一”的数据量不仅大,还会实时变化。可以说,每个购物数据都是个性化的、动态的,完成处理它们的工作,需要有强大的计算能力作为支撑。
“今年的数据处理工作,除了批处理(对数据进行批量处理)外,还有流处理,就是实时处理数据。庞大的交易数据每分钟、每秒钟都在变,它们并不是从数据库里面统计出来的,而是系统自动一层层把它们汇集上来的。”阿里巴巴集团首席技术官张建锋表示。他口中的“流处理”就是流计算,即实时计算。对于扛住“双十一”流量“洪峰”,它功不可没。
那么,什么是流计算?它是如何抗住“双十一”流量“洪峰”的?对此,科技日报记者采访了业内专家。
  以内存取代硬盘实现快速处理
北京理工大学计算机学院副院长、教授刘驰在接受科技日报记者采访时解释道,流计算指当一条数据被处理完后,立刻被序列化到内存中,然后通过网络传输到下一个节点,由下一个节点继续处理。“这种流式处理技术,是以内存取代硬盘的方式来实现数据快速处理,这是流计算之所以能够高效处理数据的根本原因。”他表示。
据刘驰介绍,流计算具有高性能、海量式、实时性、分布式、易用性、可靠性等多项优势,主要的应用方向有,对金融与科学计算中的数据进行快速运算和分析;对存在于社交网站、电子邮件、视频、电话记录、电子感应器中的数字格式信息流进行快速处理并反馈等。
“流式处理可被用于两种不同的计算场景:事件流和持续计算。”刘驰介绍道,在事件流场景,系统会持续产生大量的数据,这类数据最早出现在银行和股票交易领域,也会在互联网监控、无线通信等领域出现。这些领域的相关业务,需要流计算技术以近乎实时的方式对数据流进行复杂分析。
“而在持续计算场景,比如大型网站,流计算技术可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况。一些需要实时处理数据的场景也能应用到流计算技术,比如对根据用户行为产生的日志文件进行实时分析,对用户进行商品的实时推荐等。”刘驰介绍道。
  实时采集、实时计算、实时查询
刘驰向记者介绍道,流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算和实时查询服务。
首先,后台工作人员会用实时数据集成工具,将数据实时传输到流式数据存储系统。具体过程是,系统将长时间累积的大量数据,平摊到每个计算时间节点,数据会被不停地进行小批量实时传输。此时,数据将会被源源不断地写入流数据存储系统,不需要预先加载的过程。同时,在此过程中,数据是持续流动的,在计算完成后就会被立刻丢弃。
然后,不同于批量计算等待数据集成全部完成后才启动计算作业,流式计算作业是一种常驻计算服务,一旦启动将一直处于等待事件触发的状态,即一有小批量数据进入流式数据存储系统,流计算系统就会立刻计算并得出结果。“同时,部分电商平台的流计算团队,还使用了增量计算模型,将大批量数据分批进行增量计算,进一步减少单次运算规模并有效降低整体运算时延。”刘驰说。
最后,采用数据批处理方式,通常需要等待数据计算结果得出后,才能批量将数据传输到在线系统。而流式处理方式可在每次小批量数据计算工作完成后,就立刻将计算结果写入在线系统。“这样无需等待全部数据计算工作完成,我们就可在流计算数据查询系统中,查询到在线系统的数据处理结果。技术人员也可将实时结果发送给可视化系统,以实现计算结果的实时化展示。”刘驰说。
  技术虽强大但仍存在短板
不过,刘驰表示,流计算虽然强大,也存在技术短板。
“如果在系统内存不足的情况下,还要满足多个用户的数据请求,那么每个用户实际被分到的内存就会很少。此时,应用流式处理技术后,由于内存需求量增加,系统会把原来分给多个用户的内存资源,全部分给一个用户。其他需要内存的用户,则会因为没有内存可用,被迫进入等待状态,直到那个占有内存资源用户退出后,其他用户才能使用内存。”刘驰说,同时,实时的计算环境会由于各种各样的原因,比如网络延时等,导致程序到达计算节点的顺序出现变化。
“此外,流计算技术面对的是源源不断涌入的数据,而如果还像批处理那样来计算数据的话,就可能会导致计算根本无法结束,或随着时间的推移需要保存的数据越来越多,给内存造成巨大压力。”刘驰补充道,“数据不断产生,就需要计算持续进行。但计算时间一长,出问题的概率就会大大增加。一旦出现问题,一些在计算过程中缓存下来的数据该被怎么长期保存、怎么恢复就会成为比较大的问题。”

姓 名:
邮箱
留 言: