必威体育Betway必威体育官网
当前位置:首页 > IT技术

邮件门的迷宫 希拉里邮件数据探索

时间:2019-06-25 04:44:15来源:IT技术作者:seo实验室小编阅读:95次「手机版」
 

希拉里邮件门

摘要: 11月9日中午,不关心也不懂政治的我忽然非常感动,多少,我们在朋友圈直播里见证了一个以一敌万的故事,这不是武侠小说,也不是好莱坞电影,而是2016年美国大选,几个黑客掀起的希拉里邮件门,多少让川普弯道超车,让看起来稳赢的希拉里最后黯然退场,黑客应该争取了关键的, 超过两位数的的支持率。 11月1...

11月9日中午,不关心也不懂政治的我忽然非常感动,多少,我们在朋友圈的直播里见证了一个以一敌万的故事,这不是武侠小说,也不是好莱坞电影,而是2016年美国大选,几个黑客掀起的希拉里邮件门,多少让川普弯道超车,让看起来稳赢的希拉里最后黯然退场,黑客应该争取了关键的, 超过两位数的的支持率。

11月10日,美国著名的黑客Kim Dotcom在Twitter如是说(他的彪悍人生可自行Google)

image

什么是邮件门

邮件门是希拉里以及周边的重要人物的电脑黑客攻击/内幕爆料的后,通过wikileaks(维基解密)在网上公开的邮件。

邮件门之前,我没有怀疑过美国的民主与科学, 然而事实上有人的地方就有江湖,邮件门的关键词颠覆了我的世界观,沙特财团的联系、政治现金、邪教、买官、媒体串通......

更要命的是非常可疑的暗杀事件,许多反对希拉里的人都会以非常奇怪的方式集中式死掉

image

大选期间维基泄密被长城封了,因此我爬取了维基泄密上三份邮件泄密的所有数据,https://github.com/zhouningyi/us_selection_crack 如果你对数据有兴趣,可以直接在这里下载

解读网络的基本知识

在我们的理解里,这世界上的事物与关系,正如点与线:点是实体,线是他们的联系,比如人是实体,而2人的电话是是他们发生了一种联系,正如两个点和他们的连线,同理,发货人和收货人是点,物流是线,收款人和借款人是点,交易是线,两边的邮箱是点,邮件是线。

一封邮件是1一个人给n个人的通信,你写邮件的时候可以给一个人,也可以给一个组,所以一封邮件表达的人与人的通信关系,基本是这个样子(发件人为from,收件人为to):

image

可以想象,许许多多的邮件构成了一个网络, 但因为我们几份数据的采集不一样,网络的构成其实是有差异的,比如说DNC的邮件是服务器的邮件被复制,还原了一个组织的内部沟通,所以并没有一个特别显著的中心,而podesta和希拉里的邮件,都是自己的邮箱被公开,所以还原了一个人的联系记录,他们就很显然地处于网络的核心位置,但其实这些网络也是较为复杂的,本质上,这是一个他们社交关系的2度网络:即你给希拉里发了邮件,抄送或发送a、b、c(小黄点),其实a、b、c和希拉里不认识,但确实有关联,大家都在一个以项目作为划分的圈子里,因此之后我们会在网络图里经常会看到这样的结构

image

力引导布局

某种意义上说,网络关系和形状可以关系不大,比较下面两种网络, 因为点和点的链接没有变,其实本质上是一样的:

image

然而,两种图给我们的感受是完全不一样的,因此在这个领域,有一种术语叫layout(布局), 简而言之layout就是给点线排位置,影响的是图最后的形状。

假设我们有1000个邮箱,其中的邮件往来关系可能有1000000 = 1000 * 1000种,如果考虑邮件的方向 有 2000000种,然而事实上,人以群分,物以类聚,我们的社交关系、电话联络、邮件往来、交通网络都会形成聚落关系,你可能和你的小学同学是个两两认识的联系网络,身边的同事,兴趣圈的朋友同样是聚集的小网络,而聚落之间的通信则很少,道路网络也是一样,城市和城市密集的路网之间是稀疏而漫长的的高速公路和国道省道......

如果要刻画这种疏密有致的聚类关系,我们可以用力引导布局(Force Layout)算法实现。

不明觉厉的名词背后,往往是简单而朴素的直觉,力引导图的本质是什么,回忆中学的物理,如果一组正电荷在一起,一定是因为同性相斥四散而去,而如果正电荷之间有了弹簧,弹簧之间互相吸引,则会取到一个平衡。那如果弹簧就是邮件关系,我们就可以让互相联系的组织因为引力聚集在一起,而不联系的群落之间则互相疏离,我们就会得到一张网络关系图,比如:

希拉里网络

希拉里是个对科技发展有点淡漠的老人,她热爱黑莓手机,中间手机坏了几次,换完手机牌子还是黑莓,也许因为希拉里经常用手机发东西,所以邮件经常只言片语,其实有用的信息不是很多,但其集中度很有意思。

希拉里三大亲信

如果在希拉里网络关系 点击一下,一张高度集中的网络猛然呈现

希拉里的邮件两万七,但联系人仅三百多,而且最后归结到3个超级联系人,集中度令人惊叹,比如这是谢丽尔.米尔斯( Cheryl.Mills), 和希拉里发了4400封邮件,外加希拉里回了1000多封,也就是,希拉里1/5的邮件和她发的。

image

当然这3个联系人里最有名的当属胡马(Huma),如果对邮件门有个大致的了解,应该知道胡马的丈夫Weiner的出轨门,Weiner因为在色情网站上发裸照等等事情被FBI捉拿,然后被爆出电脑里藏了大量希拉里的机密邮件,也是FBI开始调查希拉里的理由之一。

如果我们把这3个邮箱头往google一搜索,信息一下子就丰富了,和生于1947年的希拉里比,三大心腹人种各异,而且都是小鲜肉,最老的也和希拉里差了20岁, 如果算上从podesta邮件组发现的 Robby Mook, 这位哥也是70后。

中文名 英文名 职位 族裔 出生
杰克·苏利文 Jake.Sullivan 希拉里竞选团队资深政策顾问, 希拉里当国务卿时的政策主任,之后做了副总统拜登的政策主管。很长一段时间以来希拉里一遇到问题就会去找Sullivan,如果希拉里能入主白宫,他很有可能成为国家安全顾问 白人 1976
谢丽尔.米尔斯 Cheryl.Mills 曾是一名律师和商人, 曾为克林顿总统的弹劾案进行辩护。2015 年,她曾经被要求在国会班加西事件听证会上作证。 黑人 1965
胡马 Huma. Abedin 1996年大二去白宫实习时分配到希拉里手下, 从此她再没离开过她 巴基斯坦印度裔美国人 1976

希拉里和竞选会很少联系

我们知道希拉里竞选会的主席是Podesta,而三大邮件门事件中,丑闻最多的就是Podesta,所以我们可以在搜索框右边选择邮件搜一下Podesta,然而结果极为惊人,这么一位老伙计,希拉里几乎从来不联系,仅有的联系也是HAPPy Birthday现在能不能通个电话一类的...

image

这里面有几个可能,首先希拉里的邮件是美国政府有选择性公开的,所以可能没把Podesta和希拉里的联系公开出来,此外美国政府公开的邮件里只有名字没有邮箱,而去 Podesta的邮件可视化搜索希拉里的几个邮箱,发现只也只联系几个人。

事实上希拉里有无数马甲。为了查清楚明细, 按照网络的资料,搜集了希拉里的一堆邮箱:

邮箱名 特征 时限
[email protected]   ? - 2009年3月18日
[email protected] 黑莓邮箱 临时使用  
hrod17@clintonemail.com 被黑客进攻后改的邮箱 2009年3月18日 - 2013
[email protected]    
[email protected] 官方邮箱 发送致全体工作人员的邮件  
[email protected] 官方邮箱 安排日程  
[email protected]    

在podesta邮件中,除了Podesta本人,发现和希拉里联系仅有的几个人:

邮箱 联系人
[email protected] [email protected][email protected]
[email protected] [email protected][email protected][email protected]

这个联系人里其实没几个人,比如三个邮箱都属于 Robby Mook,希拉里竞选会的经理

因此,有个小结论:

希拉里通过三大亲信和外界联系,包括Podesta

我们去 Podesta的邮件可视化 搜索下几个朋友的邮箱,马上就出来了,三大亲信都联系了Podesta,但其实,三大亲信很可能都有好几个邮箱,比如胡马就至少有3个:

名字 邮箱 和Podesta联系次数
Jake.Sullivan [email protected] 70多次
Huma. Abedin [email protected] [email protected] [email protected] 100多次
Cheryl.Mills [email protected] 600多次

image

Podesta邮件门探微

Podesta的邮件破解源于一封钓鱼邮件,黑客伪造了一个看起来很正常的邮件链接,podesta点击了一下,导致十年来的邮件完全被黑客复制了一份,Podesta比希拉里勤勉多了,十年来邮件数据库dump文件就有数百兆(全是文字啊亲)。

Podesta 邮件总览

Podesta的邮件长达十年之久。

因此,这个聚类囊括了Po主席十年的联系关系,如果我们用颜色区分邮箱的域名,这种分布其实和邮件网络的聚类很接近,相同颜色的点都在一起。

左下方的多是其大学law.georgetown.edu 圈子的邮件 ,圆圈里的邮箱主要是希拉里身边的人,邮箱要不是 hillaryclinton.com 的 要不是hrcoffice.com的。右上角的基本是现任政府的,要么是barackobama.com 的要么是 ptt.gov的。

还有些小的聚落,比如albrightstonebridge.com 是一咨询公司,有意思的是你可以在dnc和podesta的邮件体系里发现好几个咨询公司,这些应该都是政府的智囊团。

image

搜索名字包含Podesta的邮箱,发现有好多个,左上角可能是他家亲戚的邮箱,他们也和主席发邮件

而很有意思的是右下角的邮箱[email protected] ,这个应该是他在学校申请的邮箱,找他的人一堆从来不回, 因此很可能别人发邮件抄送了2个邮箱,但他是回复在另一个邮箱,而且,联系这个邮箱的人基本不给他gmail的邮箱发东西,我觉得,po主席尽可能用其他邮箱发邮件而不用gmail的。

image

单独联系Podesta的人是谁?

podesta身边有好多点,这些邮件有几个特点

1、基本上只有直接和Podesta联系的人才会被引力吸到中心

2、大部分点很小,即没有发太多的邮件

其中很多发了很多邮件的邮箱从来就没收到回信,也不是Podesata的高冷,打开其中的一个,发现原来都是推送的新闻,想想也是,这些邮箱发送的信息很多,但从来没有抄送过谁,所以就被吸到中心了。

image

但还有不少人是Podesta回过邮件的。你想,为啥这些人直接联系了Podesta,却从来基本从来没有抄送别人?,很可能是因为密不告人,如果是公事公办,一般也会抄送下老板什么的,如果我们进入这个区域,是很容易发现一些情况的,

比如(更多资料在这里) :

1、 POLITICO分管政治的主编Glenn Thrush, 有一封邮件是如何为希拉里团队写枪文。

image

2、美联社记者Julie Pace为了希拉里团队写枪文。

image

3、赫芬顿邮报记者Brent Budowsky写信给Podesta为自己的文章"The Magic of Bill 

Clinton"邀功。Podesta的回复只是一个字"Yep", 而Brent Budowsky自告奋勇去伪装出一种支持桑德斯的立场,这样桑德斯败选后,更有利于他去说服桑德斯支持者出来投希拉里的票。不过老哥确实挺有耐性的,写了250多封邮件,只回了30几封

image

4、雅虎记者Katie Couric为希拉里写枪文。这位亲实在和Podesta联系太少了,才写了2次邮件,好不容易才把页面参数调整了(把很小的点找出来,电脑卡成翔了)才找到了这位同学。

image

DNC邮件门

DNC(Democratic National Committee,DNC) 是民主党全国代表大会,基本是美国总统选举初期的时候开始,而这份数据是这个组织近一年来的所有邮件,据说这份数据是罗马尼亚黑客'Guccifer 2.0'搞出来的:

首先,list一下关键人物,这些身份在危机泄密里面都是有说明的:

职务 姓名 数量 邮箱
通讯总监 Luis Miranda 10770 [email protected]
国家财政总监 Jordon Kaplan 3797 [email protected]
财务总监 Scott Comer 3095 [email protected]
金融数据与战略总监 Daniel Parrish 1472 [email protected]
财务总监 Allen Zachary 1611 [email protected]
高级顾问 Andrew Wright 938 [email protected]
北加州财务总监 Robert(Erik)Stowe 751 [email protected]

DNC的网络聚落像一只昆虫,头部是Jordon Kaplan 和 Scott Comer为主的财务和财政系,他们和许许多多外部的团体沟通,而身子则是DNC内部的骨干,业务为主的人员。

当我们点开头部财务系的周边的关联公司,可以发现主要是服务软件公司,策略咨询公司,金融服务公司,律师事务所等等, 这些公司可能是和dnc有资金上的往来,需要审批。而财务系统其实和公司内部同事讨论比较少,因此形成了一个独立的头部。

image

如果我们通过内容搜索一个和财务关系不大的词,但是和政治有关,比如china, 就会发现都是业务核心部分的左下角的人在讨论:

image

而希拉里身边的人,邮箱域名为 hillaryclinton.com 就是左下方的一堆大黄点,他们不和财务系统人打交道,也不是很边缘化,处在网络中处于下部的位置

但身子右下方有个很大的点,周边围绕了一圈外部的公司,这个点是通讯总监Miranda,从他周边的联系邮箱看,他主要联系网络媒体传统媒体,LGBT网站,教师工会之类的非经济往来的机构,也和dnc内部的同事联系非常多,其邮件活动的覆盖可谓壮观,但其实并不怎么和头部的财务系统打交道:

image

对这部分邮件,已经有许多很详细的解读 俺的英语太蹩脚,还是自行阅读吧。

更多有意思的探索

邮件只是整个事件的冰山一角,所有的人都深知邮件的危险性,比如一封谈论权钱交易的邮件里,huma说,这种事情最好还是别用邮件说了,也许因此,这些文件极大地激发了美国选民的想象力。

image

所有的邮件数据都是非常庞大的记录,比如podesta,数据前后长达十年。因此你根据线索搜索许许多多和政治无关的关键字,也可以发现很多有意思的东西,比如搜索 zhangwangli,都可以找到邮件里的中国人。

又比如搜索 “alibaba”,也能发现许多报道,而且alibaba总是和Jack Ma的关键词一起出现, 比如马老板是美国人的座上宾,在DNC的一封来自白宫的邮件里,工作人员询问为什么马云出现在白宫, 然后另一个人巴拉巴拉说了一堆马云是奥巴马的朋友一类的话:

Jack Ma, the founder of Alibaba, was spotted leaving the White House. Can you tell us anything about why he was here?

但如果你搜索 "tencent", "baidu", 则基本无所获,但如果你搜索 "wechat",则发现微信的使用已经深入到了白宫的政治社交圈,比如dnc和podesta的邮件里都有好多相关内容,有些外国人在邮箱里留了自己的微信号以便交流(搜了下竟然真找到了某哥们...),也有些微信号留的是宣传公众号。

如果你搜索和国内政治有关的话题,才发现,原来希拉里以及周边的人都是非常关心中国的政治形势的,里面好多是Cheryl.Mills 发的,这里面非常有意思,当然这里不便多说。。。。。。

我们这辈子应该都没机会去美国从政了, 看着这份大数据集,是不是有种身临其境的感觉?

一些技术栈介绍

在技术社区写这么水的文章,感觉很过意不去,简单讲述技术栈:

1、前端主要基于d3.js,做force layout,并实现了简单的前端搜索

2、文字搜索主要基于postgres,通过ts_query的方式去查询ts_vector格式的文章,词云的统计也基本在ts_vector基础上做的,速度都很快

相关阅读

Rushmail:电子邮件营销的自动触发

在电子邮件营销的道路中,是需要经历考验、挑战以及困难才能通往成功的道路。无论是大企业还是中小型的企业,都需要与客户进行亲密的

「五个步骤」打造成功EDM邮件文案

一封富有吸引力能够带来极高阅读量和点击率的群发邮件,一定是浑然一体的,它将相当于一份精美海报或一篇优秀文章,让读者循序渐进,引人

Rushmail:周期性调整邮件群发内容的策略

在邮件营销的过程中,邮件营销内容都是需要进行周期性的调整,大部分企业都会根据一些因素进行邮件营销策略调整,下面Rushmail来给大家

javaMail实现邮件发送

平常我们在做登陆注册的时候需要需要对邮箱进行验证,向邮箱发送验证信息。下面是我在做注册的时候向邮箱发送验证码代码。邮箱校验

Java 通过SMTP实现发送QQ邮件

在eclipse中创建项目,并把javax.amil.jar和commons-email-1.5,jar复制到项目中 链接:https://pan.baidu.com/s/1sQjA1GEpKi6IJJRGHK

分享到:

栏目导航

推荐阅读

热门阅读