当前位置: > 论文中心 > 科技论文 >

基于复杂网络的电信大数据处理研究(2)

时间:2014-08-19 09:25 点击:
平均路径是基于复杂网络电信大数据的另一个十分重要的指标,它主要是指网络中两个节点之间最短路径的边数。任意两个节点的最大值称为网络的直径,上述网络的直径为8。平均路径长度是衡量网络转发能力的一个重要参数

 

  平均路径是基于复杂网络电信大数据的另一个十分重要的指标,它主要是指网络中两个节点之间最短路径的边数。任意两个节点的最大值称为网络的直径,上述网络的直径为8。平均路径长度是衡量网络转发能力的一个重要参数,具有较短路径长度可以降低传输的延迟,对于网站的查找具有决定性的作用,上述网络的平均路径长度为4-2,一般电信每个月的网络直径为20左右,整个网络的直径在15左右,这就充分说明该网络具有紧凑的结构,保证用户可以花费最短的时间联系到自己需要人,这对于电信运营商集团网络的建设及营销策略的细化非常重要。

  聚类系数用于描述网络连接的聚集程度,即网络有多紧密,也就是说如果一个网络结点有数个直接的邻居结点,那么这些邻居结点之间有可能也是邻居。Watts和Strogatz首先指出,许多实际网络的聚集系数远大于相同结点规模的随机网络。

  3.2动态数据研究

  电信运营商大数据的分析具有其自身的特点,它的用户动态性较强,呈现出“生命周期”的特征,时间演化性是电信通话数据的复杂网络化固有属性,任何网络都会随时间呈现出一定的演化规律,但数据分析不能以秒、分、时以单位展开,这样单位内的数据量太有限,要想尝试抓住用户的核心商业价值,制定相应的营销策略,就需要以月或者季为单位进行通话数据分析。

  笔者将上述的数据导入复杂网络分析软件中,最终结果如图4所示,其中包括通话日期、持续时间和基站信息,经过运算可以产生对电信数据商进行用户分析的诸多结果。首先,在图中可以发现明显的聚集效应,他们的通话概率是其他用户的2~3倍,这些用户具有更高的活跃度,这些用户在网朋友数目越多,其离网概率越小,由此可以帮助电信运营商建立流失模型,制定相应策略进而防止客户流失。其次,可以发掘出部分的个人特征及通话偏好,譬如,有些用户的通话量极少,有些用户的通话大部分发生在夜间,建立这样的用户模型将有利于发现用户的消费行为,利于各种用户套餐的制定,方便降低运营成本。最后,通过基站数据的分析,可以发现该用户的活跃地区和基站的负载程度,帮助电信运营商进行基站建设的规划。

  3.3社团挖掘研究

  复杂网络社团是指网络中的顶点可以分成组,组内顶点间的连接比较稠密,组间顶点的连接比较稀疏。社团结构在电信运营商数据分析中扮演着十分重要的角色,它是了解整个网络结构和功能的重要途径。针对电信运营商的大数据处理而言,虽然它们的社团大小和数目是未知的,用户之间的相互联系是随时间改变的,但这种网络结构呈现出比较鲜明的层次结构,可以观察出高密度或者低密度的社团结构。通过图4,可以观察到除了大部分的聚集用户节点之外,还存在着其他类型的用户节点,比如离群点和中心点。这些中心节点将对谣言或者手机病毒的传播起到重要的作用,同时还会对新客户的发掘起到推进作用。而离群节点则是比较典型的噪音数据,对这些数据的摒弃将有助于提高正常数据的处理速度。网络社团结构的研究主要与计算机科学中的图形分割和社会学中的分级聚类有着密切的关系。

  目前,基于复杂网络的许多社团网络划分算法都是在K-means基础上提出和演化的,该算法在电信大数据处理中得到广泛的应用。K-means经典算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。该算法的最大优势在于简洁和快速。该算法的关键在于初始中心的选择和距离公式。在电信大数据背景下,K-means算法在分类效果、实际运行时间方面体现出较强的实用性。通过上述数据的K-means算法社团划分实验分析,可以得到3个结构清晰的社团,他们分别包含59、29和6个用户节点。

  4结束语

  针对电信运营商数据处理的传统方法虽然能够在一定程度上进行分析处理,但面对规模日益庞大的数据量,这些方法往往在实际过程中显得力不从心,不能满足实际需求。但伴随着Google提出的MapReduee框架及其开源Hadoop等优秀的分布式架构涌现及应用,电信运营商能够引入复杂网络的系统科学方法进行大数据的处理分析。复杂网络对电信大数据目前大量出现的非结构化数据具有极强的适应性,其重要意义在于它对数据的宏观及微观两个方面的研究,宏观研究包括网络结构图的绘制、网络的演化和网络鲁棒性研究等,微观研究主要是个体的研究,比如重要节点的发现、个体演化、社团划分及事件发现等。而且,上述两方面的研究工作是相辅相成的,其目标是对现实的复杂网络进行有效的分析。总体来看,各个电信运营商利用大数据来推动业务转型将是未来电信市场的一个重要方向。电信运营商如果能够通过复杂网络等新技术的进步,不断释放其管道中庞大数据的潜在力量,将会成广大用户提供更好的服务体验。

  参考文献

  [1]郭晓科.大数据[M].北京:清华大学出版社,2012:20-130.

  [2]王星.大数据分析:方法与应用[M].北京:清华大学出版社,2013:30-208.

  [3]杨胜琦.基于复杂网络的大规模电信数据分析研究[D].北京:北京邮电大学,2010:12-120.

  [4]李秋静,叶云.电信大数据解决方案及实践[J].中兴通讯技术,2013,(6):34-38.

  [5]汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2007:162-198.

  [6]包稢.大数据,大变化,大未来——大数据支撑驱动电信运营商转型发展[J].通信世界,2013,(6):81-84.

 


   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312