摘要:在线社会网络(OSN:Onpne Social Network)是由大规模(千万级以上)互联网用户及其相对稳定的联接联系构成的集合,目前已经成为人们日常交流的重要方式。此类网络在一定程度上,可以看作是现实社会联系(如共同兴趣者、家人及朋友等)在网络空间的一种映射,是物理世界在网络空间的重现。在线社会网络由早期的Email网络进展到现在,规模越来越庞大。在可预见的未来,在线社会网络会越来越多地影响人类的生活,转变物理世界中人类社会的组织结构,影响人类社会的进展进程。目前,在线社会网络已成为业界和学术界关注的热点。在在线社会网络的探讨中,主要分为三部分探讨内容:(1)网络节点如何相互链接而构成在线社会网络的拓扑结构;(2)网络用户在这样的网络中发布消息的类型;(3)消息是如何在网络拓扑之上传播的。由于在线社会网络进展迅猛,用户规模庞大,由此,认识在线社会网络的结构,实时发现用户发布的消息类型,以及预测消息如何在网络拓扑上传播都成为计算机探讨领域的挑战。然而,发现用户是如何链接而构成在线社会网络的拓扑机构成为认识在线社会网络,并进行其他探讨的基础。以MySql和Hadoop为基础建立一个海量数据爬取和存储系统,在大约3,000万用户数据的基础之上,通过数据浅析和挖掘,以用户特点和网络拓扑特点入手,浅析了新浪微博的系统特点,指出新浪微博是一个大尺度,自组织,小世界,不均衡,高动态的网络。新浪微博拥有超过3.5亿的用户,并且用户是通过自组织的策略来构建网络拓扑,由此新浪微博是一个大尺度自组织的网络。同时,测量结果显示用户之间的平均距离在6步左右,显示新浪微博是一个小世界网络。微博用户之间的关注联系变动频繁,用户每天转变2个左右的关注用户,而有些用户的粉丝数目每天变化在3,000左右,显示新浪微博是一个高动态的网络。新浪微博用户在地域/性别分布,粉丝/关注数目分布,相互关注率方面又显示出显著的不均衡特点。依据这些特点,提出把在线社会网络分为两种基本类型:信息驱动型在线社会网络和联系驱动型在线社会网络。结果明确显示新浪微博与Facebook等联系驱动型社会网络不同,同时,在互相关注率等特点方面,新浪微博和Twitter也有较大区别。为了更深刻的理解新浪微博的拓扑结构,识别拓扑结构内部的社区,提出FriendFinder算法。该算法以社会网络中有着的三元闭包论述为基础,利用局部搜索和启发式算法,来识别网络中含有的社区结构。该算法首先利用最大度来寻找两个节点作为初始社区,浅析社区的邻居节点集合,把合适的社区邻居节点加入已经有着的社区中,对于新形成的社区,迭代以上规则,直至社区不能再扩大为止,一个社区便形成了。和经典的社区划分算法相比,FriendFinder具有较好的时间复杂度,同时社区识别的准确度较高,并且该算法具有一定的可并行性,能够处理有向和无向网络,同时可以实现快速对网络拓扑结构的划分。在测试中,发现了新浪微博中有着的7个规模较大的社区,包含31,152用户。在新浪微博的网络特点以及社区特点的基础之上,拟合新浪微博网络中用户的关注数目曲线,建立用户关注数目函数。根据新浪微博的特点,利用用户粉丝数目作为标准,把新浪微博网络分为核心网络和网络。在核心网络中,128.5万的用户吸引了全网36.71%的关注链接,同时核心用户的关注中57.68%指向核心网络内部。通过浅析新浪微博的自组织规则,发现了新浪微博用户的链接机制,提出LinkProbabipty算法来计算用户的被选择概率,利用真实的新浪微博拓扑特点的参数和新浪微博中关注联系形成的机制,Group-Based演化模型可以用来描述新浪微博的拓扑结构以及演化特点。Group-Based演化模型借鉴经典的演化模型框架,在候选节点集合选择以及候选节点被选择的概率方面利用新浪微博中的用户链接机制,由此能更好的反映新浪微博的拓扑结构。在全面理解和认识新浪微博的拓扑结构和其形成机制的基础之上,不考虑主观因素,仅以新浪微博的拓扑特点为基础,设计WeiRank算法用以量化新浪微博中用户的重要量。WeiRank算法模拟人类社会中有着的策略,利用迭代的策略来为每个节点的赋予不同的权重,计算每个用户被的次数和每次的权重来量化不同用户所具有的不同的网络影响力。和HITS以及PageRank等经典排序算法相比,WeiRank算法能更好的对社会网络中的用户进行影响力排序,并完成对新浪微博中粉丝数最多的前150万人进行排序。关键词:微博论文新浪微博论文在线社会网络论文拓扑结构论文网络模型论文社区发现论文影响力量化论文
摘要4-6
Abstract6-10
1 绪论10-22
1.1 探讨背景与作用10-15
1.2 国内外探讨近况15-19
1.3 探讨内容和主要贡献19-20
1.4 论文结构20-22
2 在线社会网络特点测量与浅析22-50
2.1 探讨背景22-25
2.2 数据收集和存储策略25-30
2.3 用户特点浅析30-41
2.4 网络特点浅析41-48
2.5 在线社会网络分类48-49
2.6 本章小结49-50
3 在线社会网络社区发现算法50-74
3.1 探讨背景50-53
3.2 FRIENDFINDER 算法53-67
3.3 性能评价67-70
3.4 有向图划分70-72
3.5 算法并行化72
3.6 本章小结72-74
4 在线社会网络拓扑模型74-94
4.1 探讨背景74-76
4.2 微博拓扑特点76-82
4.3 GROUP-BASED 演化模型82-89
4.4 模型比较浅析89-91
4.5 GROUP-BASED+演化模型91-92
4.6 本章小结92-94
5 在线社会网络节点影响力量化算法94-113
5.1 探讨背景94-97
5.2 WEIRANK 算法97-107
5.3 WEIRANK+算法107
5.4 性能评价107-112
5.5 本章小结112-113
6 总结与展望113-116
6.1 全文总结113-114
6.2 今后的工作114-116
致谢116-118