大数据与社会网络分析

lowsea

贡献于2013-01-27

字数:0 关键词:

主讲教师:沈浩 博士 中国传媒大学电视与新闻学院 教授 中国传媒大学调查统计研究所 副所长 中国传媒大学数据挖掘研发中心 主任 大数据时代 大数据挖掘与社会网络分析 2 这是一个令人兴奋的时代,也是一个大 数据的时代,网络科学让我们越来越多地从 数据中观察到人类社会的复杂行为模式。以 数据为基础的技术决定着人类的未来,但并 非是数据本身改变了我们的世界,起决定作 用的是我们对可用知识的增加。 《暴发》正是让我们思考如何从大数据中塑造未来美好世界的正能量。 3 个人感觉: 1)数据来自商业自动化 2)海量记录g或t级 3)数据维度和字典复杂 4)数据呈现时间维度和序列增长 5)商业属性特征向关系数据转换 6)数据更新实时,要求运算快速 7)支持在线分析;大数据分析就是过去说的海量 8)数据以非结构化、半结构化特征明显 什么是Big Data 从数据库中发现知识的过程! 多带来不同! 4 一种简约表达 5 6 不同的学科不是研究不同的 问题,而是从不同的角度研 究同一个问题! 社会科学是研究人的 7 1. 突变理论(catastrophe theory) 为人们理解微小作用导致社会突然变化的机理开拓了道路。 2. 混沌理论(Chaos theory) 复杂而不断变化的系统,即使其初始状态是详尽了解的,也会迅速进入无法精确预知的状态。 3. 复杂性理论(Complexity theory) 在大量元体(agent)各自按照不多的几条简单规则相互作用时,如何从中产生出秩序与稳 定。 三大社会科学理论 8 • 技术是文化的表现,是文化得以创造和表达的方法, 技术是手段也是目的。 • 微博是技术它拓展了我们与社会其他人联系的能力。 微博是技术、是平台 云计算 云存储 物联网 内存计算 移动应用 移动互联网 二维码 LBS 数据挖掘 Big Data 9 微博——重塑社会关系总和 10 不在于你知道什么,在于你认识谁! 11 进入社会化媒体—微博时代 12 微博——媒介、互联网、移动通讯 13 关系——社会网络——社会结构 派系、凝聚子群体、成分、孤立点、结构洞、社会资本 14 从定性到定量,从属性到关系 信息 Information 数据 Data 社会化媒体 Social Media 传播 Communication 知识 Knowledge 今天关注: 微博营销与社会网络 Marketing & Social Network 15 线性思维 16 创新扩散曲线 Ln 푷 ퟏ−푷 0 1 17 营销理论 4P——4C——4R 客户打分模型 客户流失模型 客户价值模型 客户信用模型 客户欺诈模型 客户忠诚模型 客户交叉销售 客户增量销售 个性化推荐模型 预测模型 客户圈模型 销售自动化 18 构想未来的工具 Time ퟏ ퟐ흅 풆−풙ퟐ ퟐ 19 20 越重大事情越很少发生——幂律分布 푷 풌 = 풌−휸 21 挖挖双色球——数据挖掘案例 22 分析数据集 挖挖双色球彩票 23 关系强度 强关系带来信任, 弱关系带来信息的传递! 24 越连接越强大,越强大越被连接! 名可养名、名可扬名、 名可恶名! 25 微博——网络可视化 看得见才能做得到、 做得好! 26 27 上 帝 的 指 纹 28 29 挖掘关系的力量 对象 关系 网络 30 关系就是条件概率——贝叶斯概率 P(A) P(A|B) 贝叶斯概率论 香浓信息论 31 骇客帝国——矩阵-Matrix 信息就是矩阵 32 社会网络分析SNA 33 关系——DNA——结构 34 数据挖掘——挖掘关联规则 35 关系——Web网络分析 关系的强弱 36 关系——Web网络分析 37 9-11 Hijackers Network 38 Source: Valdis Krebs, http://www.orgnet.com/contagion.html 追踪流行病的扩散——病毒式营销 黑色是传染源或临床确诊感 染者,粉红色的潜在传染源, 表示暴露在易感环境感染他人, 是没有确诊的感染疾病、绿色 代表暴露的人无感染和不是传 染性的。感染状况是未知的为 灰色的节点。 39 小世界理论 40 尽管大家面孔各不相同,性格迥异,但我们 的骨架看上去都一样,非常类似。我们将越 来越看到,并且承认,令人惊异的简单而又 影响深远的自然法则控制着我们周围所有的 复杂网络结构的演化! 预知社会——自然法则 41 规则网络 随机网络 规则网络 无标度网络 无标度网络——幂律分布 42 幂律分布 无标度(Scale-free)网络 幂律(power-law)函数 幂律分布p(k)~k^(-a), 43 幂律分布 1)演员合作网 2)奥斯卡奖项数 3)唱片或书籍销量 4)论文数 5)论文引用次数 6)计算机文件大小 7)机场航班 8)战争规模 9)语言单词频率 10)姓氏分布 服从幂律分布现象 11)生物物种数 12)地震强度 13)互联网网页点击 14)手机话费 15)个人收入 16)GDP大小 17)微博粉丝数 44 社会关系图——幂律分布 • 增长性 • 优先情节 45 微博的传播结构——幂律分布 • 聚集群体 • 等级差异 • 细分群体 • 自组织性 • 鲁棒性 • 脆弱性 46 传播现象、传播机制、传播结构、传播模式 47 48 编织围脖的时代 49 50 微博传播路径分析 51 意见领袖分析——关键人物 52 复杂网络——混沌 关系结构的可视化——YED工具 53 中心性测量 54 微博网络传播意味着打破大众媒体传统的传播 方式。它针对特定的目标群体,通过关键的Hub节 点、关键成员,传递特定的信息,以影响舆论和购 买决策的形成。由于信息像病毒一样传播,不仅节 约了资源和费用,而且有更持久的冲击力。基于这 个原因,信息是嵌入在整个网络中,而不是在一个 人的头脑中。 网络即信息 55 微博营销:是指经由社会网络,在明 确的目标群体规模和结构的基础上,通 过关键成员传递信息,以影响舆论和购 买决策的形成。 微博营销的定义 56 网络分析 发现意见领袖 57 推荐系统与算法:消费者更喜欢来自朋 友而非系统的推荐,如何利用微博社会网 络,从目标用户的朋友中挖掘可推荐的对 象,或引导目标用户向其朋友推荐。局部 推荐算法,将信任评价机制和社会推荐有 机结合。 微博营销——个性化推荐系统 58 个性化自适应算法:针对不同消费者行 为模式,可采用不同的算法,且可随用户 行为模式的变换自适应地改变并优化,实 现更有效的个性化推荐。 微博营销——个性化推荐系统 59 稳健性问题:针对微博特点,推荐能够充分 考虑恶意用户的存在性,避免通过欺骗行为获取 不当利益或损害其他用户的正当利益。 不仅要考虑推荐的准确性,还应考虑推荐的 信息量,避免推荐用户已经知道或太多相似内容。 思考:精确性、多样性、新颖性的平衡。 微博营销——个性化推荐系统 60 61 中心性测量:度中心性-Degree 度中心性Degrees: 表示节点的链接数量 (出度与入度中心性) 62 中心性测量:中介中心性-Betweeness 中介中心性Betweenness: 在路径上能够 到达其它节点的度量 63 中心性测量:接近中心性-Clossness 接近中心性Closeness: 有能力在最短路径 到达其它点的节点度量 64 节点的中心性 网络行动者的个体行为,从 单个看与从整体网络角度看是完 全不同的表现! 65 未来社会网络研究:动态演化过程 时间过程的演化 动态网络的演化 个体属性特征 大尺度网络的结构 66 监测: 抓住中心节点 控制: 切断关系 67 预知社会 不管个人的偏好或思想是什么,个人行为如何加 总而为集体行为的方式却是不相关的另外一个复杂问 题。 新 闻 传 播 学 院 68 68 100人的网络= 4,950 可能的链接! 创新的扩散 1,000 人的网络 = 500,000 可能的链接! 平均来讲:每个人有 11 - 12 亲密的关系 150+ 社会关系 500 - 1,500 弱关系 69 欢迎光临沈浩老师的博客 70 计算机及数据处理软件、统计软件的发展 使得我们做数据挖掘和网络分析成为简单而可能的事情。 分析工具和软件 • WORD • EXECL • PowerPoint • Access • Microsoft Visio • SmartDraw • PCEDIT • EpiData • Hadoop、R、Knime • SPSS for Windows 11.5-20.0 • AnswerTree 3.0 • Decision Time and What If • Clementine 7.0-14.2 • SAS 6.12-9.2 • Lisrel 8.53 / Amos4.0-18.0 • Ucinet/YED/Gephi/Cytoscape • Crystal Xcelsius • Crystal Report 71 本讲稿仅供大家学习使用! 联系方法: 中国传媒大学新闻传播学院 中国传媒大学调查统计研究所28号信箱 中国传媒大学数据挖掘研发中心 信箱:shenhao@cuc.edu.cn 博客:shenhaolaoshi.blog.sohu.com 微博:@沈浩老师

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享文档获得金币 ] 5 人已下载

下载文档

相关文档