当前位置: > 论文中心 > 计算机论文 >

网络大数据:现状与展望

时间:2015-12-21 09:53 点击:
【论文摘要】网络大数据是指人、机、物三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得 的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和 计算能力带来了极大挑战.同时,也为人们
  【论文摘要】网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得 的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和 计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因此,迫切 需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方 法.文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管 理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科 学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望.
  【论文关键词】大数据;网络大数据;网络空间感知;大数据存储;数据挖掘;土会计算
  1引言
  1.1研究与发展现状
  近年来,随着互联网、物联网、云计算、三网融合 等IT与通信技术的迅猛发展,数据的快速增长成 了许多行业共同面对的严峻挑战和宝贵机遇,因而 信息社会已经进入了大数据(Big Data)时代.大数 据的涌现不仅改变着人们的生活与工作方式、企业 的运作模式,甚至还引起科学研究模式的根本性 改变.
  一般意义上,大数据是指无法在一定时间内用 常规机器和软硬件工具对其进行感知、获取、管理、 处理和服务的数据集合[1].网络大数据是指“人、机、 物”三元世界在网络空间(Cyberspace)中彼此交互 与融合所产生并在互联网上可获得的大数据,简称 网络数据.
  当前,网络大数据在规模与复杂度上的快速增 长对现有IT架构的处理和计算能力提出了挑战. 据著名咨询公司IDC发布的研究报告,2011年网络 大数据总量为1. 8ZB,预计到2020年,总量将达到 35 ZB .IBM将大数据的特点总结为3个V,即大量化 (Volume)、多样化(Variety)和快速化(Velocity). 首先,网络空间中数据的体量不断扩大,数据集合的 规模已经从GB、TB到了 PB,而网络大数据甚至以 EB和ZB(1021)等单位来计数.IDC的研究报告称, 未来十年全球大数据将增加50倍,管理数据仓库的 服务器的数量将增加10倍以迎合50倍的大数据增 长?.其次,网络大数据类型繁多,包括结构化数据、 半结构化数据和非结构化数据.在现代互联网应用 中,呈现出非结构化数据大幅增长的特点,至2012年 末非结构化数据占有比例达到互联网整个数据量的 7 5%以上.这些非结构化数据的产生往往伴随着社 交网络、移动计算和传感器等新技术的不断涌现和 应用.再次,网络大数据往往呈现出突发涌现等非线 性状态演变现象,因此难以对其变化进行有效评估 和预测.另一方面,网络大数据常常以数据流的形式 动态、快速地产生,具有很强的时效性,用户只有把 握好对数据流的掌控才能充分利用这些数据.
  近几年,网络大数据越来越显示出巨大的影响 作用,正在改变着人们的工作与生活.2012年11月 《时代》杂志撰文指出奥巴马总统连任成功背后的秘 密,其中的关键是对过去两年来相关网络数据的搜集、分析和挖掘②目前,eBay的分析平台每天处理 的数据量高达100 PB,超过了纳斯达克交易所每天 的数据处理量.为了准确分析用户的购物行为,eBay 定义了超过500种类型的数据,对顾客的行为进行 跟踪分析③.2012年的双十一,中国互联网再次发生 了最大规模的商业活动:淘宝系网站的销售总额达 到191亿元人民币.淘宝之所以能应对如此巨大的 交易量和超高并发性的分析需求,得益于其对往年 的情况,特别是用户的消费习惯、搜索习惯以及浏览 习惯等数据所进行的综合分析④
  网络大数据给学术界也同样带来了巨大的挑战 和机遇.网络数据科学与技术作为信息科学、社会 科学、网络科学和系统科学等相关领域交叉的新兴 学科方向正逐步成为学术研究的新热点.近年, 《Nature》和《Science》等刊物相继出版专刊来探讨 对大数据的研究.2008年《Nature》出版的专刊“Big Data”,从互联网技术、网络经济学、超级计算、环境 科学和生物医药等多个方面介绍了海量数据带来的 挑战[2]. 2011年《Science》推出关于数据处理的专刊 “Dealing with Data”,讨论了数据洪流(Data Deluge) 所带来的机遇[3].特别指出,倘若能够更有效地组织 和使用这些数据,人们将得到更多的机会发挥科学 技术对社会发展的巨大推动作用.
  1.2网络大数据研究的意义
  总体而言,网络大数据研究的重要性体现在以 下几个方面:
  (1)网络大数据的研究对捍卫国家网络空间的 数字主权,维护社会稳定,推动社会与经济可持续发 展有着独特的作用.信息化时代,国家层面的竞争力 将部分体现为_国拥有网络大数据的规模、活性以 及对数据的解释与运用的能力.国家在网络空间的 数字主权也将是继海、陆、空、天四空间之后另一个 大国博弈的空间.在网络大数据领域的落后,意味着 失守产业战略制高点,意味着国家安全将在网络空 间出现漏洞.为此,今年3月,美国政府整合6个部 门投资2亿美元启动“大数据研究和发展计划”.在 该计划中,美国国家科学基金会提出要“形成一个包 括数学、统计基础和计算机算法的独特学科”.该计 划还强调,大数据技术事关美国的国家安全,影响科 学研究的步伐,还将引发教育和学习的变革.这意味着网络大数据的主权已上升为国家意志,直接影响 国家和社会的稳定,事关国家的战略安全.
  (2 )网络大数据是国民经济核心产业信息化升 级的重要推动力量.“人、机、物”三元世界的融合产 生了大规模的数据,如何感知、测量、利用这些网络 大数据成为国民经济中许多行业面临的共同难题, 成为这些行业数字化、信息化的障碍和藩篱.如何使 不同行业都能突破这_障碍,关键在于对网络大数 据基本共性问题的解决.譬如,对于非结构化数据的 统_表示与分析,目前缺少有效的方法和工具.因 此,通过对网络大数据共性问题的分析和研究,使企 业能够掌握网络大数据的处理能力或者能够承受网 络大数据处理的成本与代价,进而使整个行业迈入 数字化与信息化的新阶段.在这个意义上,对网络大 数据基础共性问题的解决将是新_代信息技术融合 应用的新焦点,是信息产业持续高速增长的新引擎, 也是行业用户提升竞争能力的新动力.
  (3)网络大数据在科学和技术上的突破,将可 能诞生出数据服务、数据材料、数据制药等战略性新 兴产业.网络数据科学与技术的突破意味着人们能 够理清数据交互连接产生的复杂性,掌握数据冗余 与缺失双重特征引起的不确定性,驾驭数据的高速 增长与交叉互连引起的涌现性(Emergence)[4],进 而能够根据实际需求从网络数据中挖掘出其所蕴含 的信息、知识甚至是智慧,最终达到充分利用网络数 据价值的目的.涌现性是指由低层次的多个元素构 成高层次的系统时展示出的每个单_元素所不具备 的性质.网络数据不再是产业环节上产生的副产品, 相反地,网络数据已成为联系各个环节的关键纽带. 通过对网络数据纽带的分析与掌握,可以降低行业 成本、促进行业效率、提升行业生产力.因此,可以预 见,在网络数据的驱动下,行业模式的革新将可能催 生出数据材料、数据制造、数据能源、数据制药等一系列战略性的新兴产业.
  (4)大数据引起了学术界对科学研究方法论的 重新审视,正在引发科学研究思维与方法的一场革 命.科学研究最初只有实验科学,随后出现了理论科 学,研究各种定律和定理.由于在许多问题上,理论 分析方法变得太过复杂以至于难以解决难题,人们 开始寻求模拟的方法,这又产生了计算科学.而大数 据的出现催生了一种新的科研模式,即面对大数据, 科研人员只需从数据中直接查找、分析或挖掘所需 要的信息、知识和智慧,甚至无需直接接触需研究的 对象.2007年,已故的图灵奖得主吉姆格雷(JimGray)在他最后_次演讲中描绘了数据密集型科学 研究的“第四范式,,(The Fourth Paradigm)5],把数 据密集型科学从计算科学中单独区分开来.格雷认 为,要解决我们面临的某些最棘手的全球性挑战, “第四范式”可能是唯一具有系统性的方法.
  网络大数据的深挖掘、大规模利用是新兴产业 界的立足点.即便针对大数据的研究目前还没有建立 -套完整的理论体系,也缺少高效快速的处理、分析 与挖掘的算法与范式,但大数据的应用前景毋庸置 疑,因为大数据从根本上来说就是来源于应用的问 题.著名出版公司O’Reilly的创始人Tim O’Reilly 断言,大数据就是下个Intel Inside,未来属于那些能把数据转换为产品的公司和人群.MGI的研究 报告也宣称,大数据是下一代革新、竞争力和生产力 的先导,网络大数据可为世界经济创造巨大价值,提 高企业和公共部门的生产率和竞争力,并为消费者 创造巨大的经济利益. Gartner 公司则更具体地预 测,到2015年,采用大数据和海量信息管理的公司 将在各项财务指标上,超过未做准备的竞争对手 20%.
  本文梳理了网络大数据所带来的挑战以及相关 的研究体系,从网络空间感知与数据表示、网络大数 据存储与管理体系、网络数据挖掘和社会计算以及 网络数据平台系统与应用4个方面回顾了相关领域 的新近发展,探讨了网络大数据研究方向和所面临 的挑战,并展望了未来的主要研究方向.
  2网络大数据带来的挑战

   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312