特朗普和克林顿可能使用了机器学习(1946字)、附2017年1月11日周三新闻四则汇编(5528字)、人口统计和段子两则,全部合计7.6k字,详读约需15分钟。
朗普和克林顿可能使用了机器学习
选自IBM数据科学经验2016年12月21日博客,照片支持:纽约时报
美国总统选举无疑是过去一年中最受关注的话题之一。社交媒体已经颠覆了传统的政治竞选策略,允许人民更好地理解政治问题和候选人。矛盾的是,尽管有大量可用数据,选举结果违背大多数民意调查、分析和预测功能。
在这项研究中,我们使用社交媒体数据(尤其是推特)提供每个候选人的流行度、推特模式和最常见主题的洞察力。此外,我们尝试建立模型和预测出新候选人取得的成功。
数据集
我们使用候选人官方推特账户,共6000个公共推特数据集:@realdonaldtrump和@HillaryClinton(3000条每个)。每个推特包含文本、日期、时间、用户转发次数,被标记为喜欢的数字,连同其他一些元数据。
数据集可从Kaggle网站下载 https://www.kaggle.com/benhamner/clinton-trump-tweets。
代码
代码是R语言写的,使用IBM沃森数据平台。你可以免费注册http://datascience.ibm.com/。源代码包含在木星笔记本(A Jupiter Notebook)这里:https://github.com/IBMDataScience/election2016。
探索推特
唐纳德·特朗普的最常用的词如下:
注意在特朗普的推特上,最常见的单词(例如:太好了、将、谢谢)有非常积极的意义,它是理想的政治竞选用词。
有趣的是,希拉里•克林顿(Hillary Clinton)在推特上使用最频繁的一个词是特朗普:
推特基本统计
注意:特朗普的推特转发是克林顿的两倍。然而,特朗普2015年12月至2016年9月的推特,而克林顿2016年4月至2016年9月的推特,可以看出:克林顿推特比川普推特更频繁。
民主党和共和党提名之后,两位候选人都得到了极大的关注。然而,在第一次辩论(可以说是克林顿赢)后,克林顿获得了巨大的关注,特朗普的情况则不是。
对推特建模的成功
浏览数据集后,一个有趣的问题是,对一个新推特如何能成功,做建模和预测。
第一步是定义成功。在我们的例子中,我们假设成功的推特是多次转发的。可以立即想象到,回归问题的目标是预测推文转发数量。
第二步是描述文本意义使之可用的特征设计。非常常见和简单的方法是TF/IDF(词频率/逆文档频率)算法。R语言的tm(文本挖掘)包提供了内置的功能来提取TF/IDF特征。这会有何语料库条目(即:单词)一样多的特征值,和推特一样多的行。
第三步是建立一个回归模型预测转发数量。我们选择了多元自适应回归样函数(MAS算法),因为它允许非线性关系模型数据(可能是TF/IDF特征)的情况下,可以很好的处理高维度数据。
预测结果
特朗普推特训练的模型(读者可用类似方式训练克林顿推特)。模型训练后,我们在11个各种推特话题做测试。
推特1号是训练集的一部分,事实上也是唐纳德·特朗普推文转发最多的(167274次)。预测转发数量非常接近(161918),给了我们一个良好的上限模型的质量。模型训练时的R方值约为0.75。
推特2号是一个与特朗普词汇完全无关的随机文本。正如预期那样,它有一个预测的小得多的转发量(4517)。
第三条推特与特朗普意识形态相关,从而获得近20K的预测转发量。注意,文本中单词的出现次数,与推数4号所示无关。
推特5号是一个特朗普最常用单词的随机排列(见前文字云图)。这将非常成功(~3k转发)。这是因为TF/IDF算法不仅考虑词频,也对帐户文档频率的特性值做常规化处理。
推特6号(特朗普的口号)有望成功,所以,鉴于特朗普用着稍微不同的话,给了推特9号。
推特10号和11号预计地甚至比“我爱鳄鱼”那样糟糕,这并不令人惊讶,因为他们反对特朗普的政治观点。
有趣的是,推特7号和8号有完全相同预测的成功结果。这可能是由于单词“喜欢”和“讨厌”的词频并不与推特上的成功是相关的。感兴趣的读者可以使用情绪分析(R包qdap)来提高这方面模型的准确度。
经验教训
我们已经展示了如何利用IBM沃森数据平台去探索、可视化和使用R语言做模型数据。
对例如转发数量/最喜欢的简单统计,已经有利于特朗普、支持这次选举的结果。
尽管这次采用小规模数据集和词汇(即3k推特和6k单词),推特成功的预测被证明是与候选人的政治观点相关的。我们相信更大的数据集绝对可以提高精度和拓宽那些预测话题。
该模型是无法区分一个特定主题的消极与积极观点。我们相信,这可以通过来自情感分析领域的附加功能得到提高。
MARS(火星)算法选择一个更小的特征值子集。这意味着有些单词会被丢弃,这意味着一些单词被丢弃,从而减少模型可处理词汇量的空间大小。使用所有特征值将是理想的,但它带来了可扩展性问题。事实上,在运行vanilla(香草) R语言时,线性回归和支持向量机等算法无法取得成功。我们建议使用Spark(火花) R语言,用全部特征值(即:单词)来创建一个回归模型。
作者:奥斯卡·D·劳拉-亚加斯http://datascience.ibm.com/blog/author/olarayej/奥斯卡·D·劳拉-亚加斯(Oscar D. Lara-Yejas)是IBM沃森数据平台的数据科学家。他的专长是机器学习、大数据、以人为中心的感知和软件工程。2016年12月21日写于加拿大圣·约瑟市。
此文IBM数据科学经验博客http://datascience.ibm.com/blog/election-2016-data-analysis/,已分享在:https://twitter.com/intent/tweet?text=Trump and Clinton may have used some Machine Learning&url=http://datascience.ibm.com/blog/election-2016-data-analysis/https://www.facebook.com/sharer/sharer.php?u=http://datascience.ibm.com/blog/election-2016-data-analysis/https://plus.google.com/share?url=http://datascience.ibm.com/blog/election-2016-data-analysis/致谢:非常感谢IBM大数据大学(大中华区)项目总监吴仲毓推荐原文提供相关信息。
附录、2017年1月11日周三新闻四则汇编(5528字)
i. 早报,1月11日,星期三
1、俄罗斯禁烟拟“放大招”:2015年后出生的人终生不得购烟;
2、42家航空公司公布航班延误补偿标准 其中中联航、西部航空、乌鲁木齐航空、春秋航空和桂林航空5家无任何补偿;
3、国际足总宣布 世界杯将扩军至48队 届时小组赛将会分为16个小组,每个小组3支球队;
4、中国暂不受理审批精灵宝可梦Go类游戏,称其有较大社会风险;
5、高德地图公布年度交通报告:济南最堵 华为加班时间最长;
6、教育部:大中小学教材一律改为"十四年抗战" 全面反映日本侵华罪行 教材落实"十四年抗战"概念 从"九一八"起算 ;
7、共享电单车深圳遇阻 落地首日被交警下令收回;
8、日本专家提醒:摆V字拍照很危险 有可能被盗取指纹;
9、特朗普将任命女婿为白宫高级顾问;
10、全国奶业发展规划:2020年奶业整体进入世界先进行列;
11、网曝支付宝存在新漏洞:熟人可重置登录密码并免密支付;
12、联合国报告:2016年阿富汗平民死亡人数突破纪录,2016年11月,因冲突而无家可归的难民达50万,创历史新高。儿童占56%;
【微语】贝类生物要通过相当漫长痛苦的过程才能孕育出美丽的珍珠,所以不要抱怨生活中的磨难,那是成就你的必经过程。
ii. 2017年1月11日周三读报!一切美好从“幸福”开始!
1、统计局:2016年12月份全国居民消费价格指数同比上涨2.1%,环比上涨0.2%;工业生产者出厂价格指数PPI同比上涨5.5%,环比上涨1.6%,再创三年新高。全年来看,CPI同比上涨2.0%;PPI同比下降1.4%。
2、教育部:中小学教材“8年抗战”全改为“14年抗战”。“八年抗战”的说法是指从1937年“七七事变”中日战争全面爆发算起,而如果从1931年“九一八事变”算起至日本无条件投降,则为14年。
3、《中国经济周刊》:数据显示,2016年赚得最多的一位股民,全年盈利5100万,同时,一位亏损最多的股民,全年亏损5074万。此外,资金量越大的股民亏得越少,资金量越少的散户,亏得越多。
4、中国男女婚恋观调研报告显示,去年被父母逼过婚的受访男女比例分别为56%和50%。从全国区域来看,单身男受到逼婚压力最大的省份依次为江西、河南、广东、安徽和陕西;女性则为江西、安徽、河南、上海和云南。广东男性逼婚压力全国第三,而广东女性的彩礼起步金额平均值为61186元。
5、支付宝回应登陆密码漏洞:已提高安全等级。针对网友曝光的可以通过识别好友等找回支付宝登陆密码。蚂蚁金服安全中心回应称,这一方式仅在特定情况下才能实现,并且仅通过回答安全问题无法找回登陆密码,一旦用户支付宝在其他设备被登陆,本人设备会收到通知提醒。在接到网友反映后,支付宝已提高风控系统的安全等级。
6、雅虎再见!将更名Altaba。网友:阿里他爸?雅虎宣布,在公司将核心业务出售给Verizon通讯的交易完成后,CEO玛丽莎·梅耶尔将退出董事会。同时,雅虎剩余业务将更名为Altaba Inc,转型成为一家投资公司。(2016年7月份,Verizon同意以48.3亿美元收购雅虎核心业务和房地产。)
7、德国宝马发布数据显示,2016年宝马品牌的全球销量同比增长5.2%,达到200.34万辆。梅赛德斯奔驰销量为208.39万辆,时隔12年重新夺得高档车全球销量冠军。宝马将从2017年开始投放新车型,力争发起反击,各家汽车厂商的竞争将越来越激烈。
8、葡萄牙球员C罗第4次获得国际足联年度最佳球员称号。C罗在发表获奖感言时说,2016年是他职业生涯的巅峰年,“我无法忘记这难以置信的1年,我不会高声尖叫,只是很动情。”
9、委内瑞拉总统马杜罗宣布将最低工资水平上调50%,这是自去年以来的第五次上调(全年的涨薪幅度达到了536%),以帮助民众度过该国正在遭受的“经济战争”。今年,委内瑞拉通胀预期将达到1660%,而明年则可能飙至2880%。
10、俄罗斯禁烟拟“放大招”:俄卫生部在新的反烟草构想中建议,2015年及以后出生的俄罗斯人终生不得购买烟草产品。(俄罗斯是世界上吸烟问题最严重的国家之一。目前俄每年有33万至50万人死于与吸烟有关的疾病。)
11、日本专家称,拍照时摆V字手势,很可能被盗取指纹。实验显示,利用一张从3米处拍摄的照片读取到了指纹信息,在拍照时摆V字手势,不太安全。对于照片曝光率较高的名人,指纹信息等被盗取的危险系数更高。
12、行走红尘,不要被欲望左右,而迷失了方向。更不要被物质打败,而做了生活的奴隶。给心灵腾出一方空间,让那些够得着的美好安全抵达。攥在自己手里的,才是实实在在属于你的幸福。
美好一天从“幸福”开始!
iii. 2017年1月11日周三(农历腊月初十四)/早读分享:
2017年1月11日(农历腊月十四)周三/早读分享:
1、【昨日股市收评:上冲乏力 零售板块涨幅喜人】周二两市震荡频繁,沪指报3161.89点,跌0.30%,创业板报1951.68点,跌0.51%。受益于阿里筹划私有化银泰商业,零售板块大幅拉升,百大集团丶杭州解百、红旗连锁封涨停至收盘。
2、【支付宝回应密码可被熟人修改:己修正】昨日,网传支付宝存在严重漏洞,账号密码可被知晓本人相关信息的"熟人"修改,甚至可以不用别人原密码直接用手机号就可以更改。支付宝表示,网友反映的这一方式仅在特定情况下才会实现,为了更好的提升用户的安全感,于昨日上午进一步提高了风控系统的安全等级。
3、【发改委:预计2016年中国经济总量破70万亿】徐绍史在国新办新闻发布会上表示,我国2016年经济增量约为5万亿,总量为70万亿,在全球主要经济体中表现突出!
4、【2017“三策联动”加力有效投资 投向棚改、水利等民生领域】记者从多个部委了解到,今年将加快启动实施“十三五”重大工程建设,对于重大水利、铁路等大型项目,将建立快速审批通道,并通过出台相关国家政策优先保障土地供应和融资安排。
5、【外国学生在美国学校就读的数量在过去的十年飞速飙升】根据美国国际教育协会的统计。在2016年,美国的外国学生比2015年增加了7.1%,共有1,043,839名学生,占美国高等教育学生总数5.2%。外国学生疯狂涌入美国大学,特别是公立大学,这已经成为这些大学资金增长越来越依赖的手段。
6、【经济参考报:IPO融资须顾及市场承受度】无论是暂停新股IPO,还是新股发行“莫名”提速,都不是一个正常市场的正常表现。新股发行,需兼顾直接融资与市场的承受度与投资者的接受度,这才是最为重要的。
7、【摩根士丹利(Morgan Stanley, MS)和瑞士银行(UBS AG, UBS)计划增加在中国内地投资银行业务的持股】显示这两家公司致力于在中国发展更多业务。
8、【发改委:发展混合所有制粮食经济】发改委主任徐绍史强调,今年要深化国有粮食企业改革,建立健全现代企业制度,积极稳妥有序发展混合所有制粮食经济,组建跨区域、跨所有制的粮食企业集团,开展全产业链经营。
9、【省级空间规划试点正式全面开展】《省级空间规划试点方案》9日正式对外公布,明确在吉林、浙江、福建、江西、河南、广西、海南、贵州、宁夏9个省份开展试点。将降低规划领域制度性交易成本,落实城镇、农业、生态空间和生态保护红线、永久基本农田、城镇开发边界“三区三线”。
10、【仙言潮声】世界观是你的想法,人生观是你的看法,价值观则是你的做法。想对了,看准了,做好了,人生就会卓越啦!
美好的一天从追求卓越开始!
iv. 2017年1月11日周三,师傅微报:
1982年1月11日,邓小平提出“一国两制”
1)1月10日晚9点,美国总统奥巴马在芝加哥向美国人民发表告别演说,这场演说被白宫称为“向前看”的演说。奥巴马在演讲一开始,就自嘲是“跛脚鸭”。)中新网)
中包括普京的亲信,俄检察官亚历山大·巴斯特雷金,他曾对普京的反对者展开许多调查。根据制裁,美国公民被禁止与这些人发生商业往来。(法新社)
3)奥巴马临别赠言特朗普:普京跟我们不是一路人。奥巴马八年任期,30多次登上时代封面、堪称封面霸王。(参考消息)
4)休斯敦男子和妻子孩子购物回家,在家门口遇到抢窃,男子与劫匪枪战, 双双身亡。
5)韩国或滑向经济大动荡, 面临史上最严重经济危机。(参考消息)
6)美国最年轻亿万富翁SnapChat创始人Evan Spiegel 迎娶维密超模k可儿,人生赢家的属性他占全了。(北美留学生报)
7)大众集团宣布同美国司法部达成协议,支付43亿美元罚款换取司法部不起诉大众“排放门”事件。(观察者网)
8)韩国19批次化妆品未获准入中国, 韩媒:或因“萨德”。(参考消息)
10)麦当劳把中国业务卖了20亿美元,在负责中国大陆和香港业务的新公司的组成中,中信股份和中信资本合计持有52%的股权,凯雷将持有28%,麦当劳则持有剩下的20%。(财经新闻)
11)在iPhone面世10周年之际,微信发布新的应用平台小程序。小程序目前已上线,是基于云的新功能。该平台可能在未来10年挑战苹果在应用领域的地位。(华尔街日报)
12)【微言微语】
要使别人喜欢你,首先你得改变对人的态度,把精神放得轻松一点,表情自然一点,笑容可掬,这样别人就会慢慢喜欢上你。
v. 转自北大人口经济专家群【中国400个大姓】
通过对“全国13.3亿人口的姓氏数据库(2008-2010)”的综合分析,华夏姓氏源流研究中心发布了当今中国的最新版400个大姓:
1王2.李 3.张 4.刘 5.陈 6.杨7.黄 8.吴 9.赵 10.周 11.徐 12.孙 13.马 14.朱 15.胡 16.林 17.郭 18.何 19.高 20.罗 21.郑 22.梁 23.谢 24.宋 25.唐 26.许 27.邓 28.冯 29.韩 30.曹 31.曾 32.彭 33.萧 34.蔡 35.潘 36.田 37.董 38.袁 39.于 40.余 41.叶 42.蒋 43.杜 44.苏 45.魏 46.程 47.吕 48.丁 49.沈 50.任 51.姚 52.卢 53.傅 54.钟 55.姜 56.崔 57.谭 58.廖 59.范 60.汪 61.陆 62.金 63.石 64.戴 65.贾 66.韦 67.夏 68.邱 69.方 70.侯 71.邹 72.熊 73.孟 74.秦 75.白 76.江 77.阎 78.薛 79.尹 80.段 81.雷 82.黎83.史 84.龙 85.陶 86.贺 87.顾 88.毛 89.郝 90.龚 91.邵 92.万 93.钱 94.严 95.赖 96.覃 97.洪 98.武 99.莫 100.孔;
101.汤 102.向 103.常 104.温 105.康 106.施 107.文 108.牛 109.樊 110.葛 111.邢 112.安 113.齐 114.易 115.乔 116.伍 117.庞 118.颜 119.倪 120.庄 121.聂 122.章 123.鲁 124.岳 125.翟 126.殷127.詹 128.申 129.欧 130.耿 131.关 132.兰 133.焦 134.俞 135.左 136.柳 137.甘 138.祝 139.包 140.宁 141.尚 142.符 143.舒 144.阮 145.柯 146.纪 147.梅 148.童 149.凌 150.毕 151.单 152.季 153.裴 154.霍155.涂 156.成 157.苗 158.谷 159.盛 160.曲 161.翁 162.冉 163.骆 164.蓝 165.路 166.游 167.辛 168.靳 169.欧阳 170.管 171.柴 172.蒙 173.鲍 174.华 175.喻 176.祁 177.蒲 178.房 179.滕 180.屈 181.饶 182.解 183.牟 184.艾 185.尤 186.阳 187.时 188.穆 189.农 190.司 191.直 192.古 193.吉 194.缪 195.简 196.车 197.项 198.连 199.芦 200.麦;
201.褚 202.娄 203.窦 204.戚 205.岑 206.景 207.党 208.宫 209.费 210.卜 211.冷 212.晏 213.席 214.卫 215.米 216.柏 217.宗 218.瞿 219.桂 220.全 221.佟 222.应 223.臧 224.闵 225.苟 226.邬 227.边 228.卞 229.姬 230.师 231.和 232.仇 233.栾 234.隋 235.商 236.刁 237.沙 238.荣 239.巫 240.寇 241.桑 242.郎 243.甄 244.丛 245.仲 246.虞 247.敖 248.巩 249.明 250.佘 251.池 252.查 253.麻 254.苑 255.迟 256.邝 257.官 258.封 259.谈 260.匡 261.鞠 262.惠 263.荆 264.乐 265.冀 266.郁 267.胥 268.南 269.班 270.储 271.原 272.栗 273.燕 274.楚 275.鄢 276.劳 277.谌 278.奚 279.皮 280.粟 281.冼 282.蔺 283.楼 284.盘 285.满 286.闻 287.位 288.厉 289.伊 290.仝 291.区 292.郜 293.海 294.阚 295.花 296.权 297.强 298.帅 299.屠 300.豆;
301.朴 302.盖 303.练 304.廉 305.禹 306.井 307.祖 308.漆 309.巴 310.丰 311.支 312.卿 313.国 314.狄 315.平 316.计 317.索 318.宣319.晋 320.相 321.初 322.门 323.云 324.容 325.敬 326.来 327.扈 328.晁 329.芮 330.都 331.普 332.阙 333.浦 334.戈 335.伏 336.鹿 337.薄 338.邸 339.雍 340.辜 341.羊 342.阿 343.乌 344.母 345.裘 346.亓 347.修 348.邰 349.赫 350.杭 351.况 352.那 353.宿 354.鲜 355.印 356.逯 357.隆 358.茹 359.诸 360.战 361.慕 362.危 363.玉 364.银 365.亢 366.嵇 367.公 368.哈 369.湛 370.宾 371.戎 372.勾 373.茅 374.利 375.於 376.呼 377.居 378.揭 379.干 380.但 381.尉 382.冶 383.斯 384.元 385.束 386.檀 387.衣 388.信 389.展 390.阴 391.昝 392.智 393.幸 394.奉 395.植 396.衡 397.富 398.尧 399.闭 400.由。
本次最新公布的“百家姓”排序,基于“全国13.3亿人口的姓氏数据库(2008-2010)”的统计,分析数据扩大到,包括台湾的全部姓氏数据和香港、澳门的随机抽样数据。
河南是王、李、张、赵、马、郭、韩、曹、田、杜、魏、任、傅、范、石、贾、侯、秦、阎、段、史等姓氏的第一大省。
山东是刘、孙、高、宋、董、于、姜、孟、邵、孔等姓氏的第一大省。
广东是陈、黄、吴、林、郑、梁、谢、邓、冯、蔡、叶、苏、钟、廖、邱、江、黎、赖、温等姓氏的第一大省。
四川是杨、何、罗、唐、袁、蒋、雷、文等姓氏的第一大省。
湖南是周、曾、彭、萧、谭、尹、龙、贺、龚、向等姓氏的第一大省。
江苏是徐、朱、丁、沈、姚、戴、夏、薛、顾、钱、严、汤等姓氏的第一大省。
湖北是胡、余等姓氏的第一大省。
安徽是潘、程、汪、方、陶等姓氏的第一大省。
广西是陆、韦、覃、莫等姓氏的第一大省。
浙江是金、毛等姓氏的第一大省。
江西是邹、熊、万等姓氏第一大省。
河北是白、郝、康等姓氏第一大省。
台湾是洪姓第一大省。
山西是武姓第一大省。
人数在1万人以上的姓氏有717种,占总人口97.71%;人数在10万人以上的姓氏有374种,占总人口96.80%;人数在100万人以上姓氏有153种,占总人口90.67%;人数在1000万人以上的姓氏有23种,占总人口56.61%。
vi. 总结2016最佳短信/段子
2016年获奖作品
《人生》
人生就像蹲坑,有时你已经很努力了,但结果却是个屁。
《伤害》
《别往坏处想》
深夜,女儿哭着给母亲打电话:妈!他现在还没回来,一定是有别的女人了!母亲柔声安慰:傻孩子!不会的!以后遇事别总往坏处想,也许是出车祸了呢?!
《儿子考试》
儿子考了50分,妈妈很生气,臭打一顿,幷厉声训斥:下次再考低了,就别叫我妈!第二天儿子回来,不好意思地对母亲说:对不起大姐!我又考低了。
2016年获奖小小说
《好悬》
老李提前下班回家,发现老婆正和书记偷情,吓得赶紧跑回单位,叹道:好悬,差点被领导发现早退!
《嫁女》
老王有一丑女始终嫁不出去,希望被拐卖,一天终于梦想成真,被人绑架,绑匪嫌她丑,将其送回原处,此女坚决不下车,绑匪头咬牙跺脚地说:走!车不要了!
2016年最佳语文
组词能力:
“钱是没有问题”就这六个字的组词成句,可以变成不同意思的句子!哈哈,偉大的語文能力!
钱是没有问题
问题是没有钱
有钱是没问题
没有钱是问题
问题是钱没有
钱没有是问题
钱有是没問题
是有钱没问题
是没钱有问题
是钱没有问题
有问题是没钱
没问题是有钱
没钱是有问题
2016年获奖微小说
《昨晚又失眠了》
昨晚又一夜没睡好,一直在想一个问题:菲律宾真搞笑 ,凭什么南海靠近菲律宾就是他们的?我家楼下
中国银行
工商银行
酒店
超市
还有隔壁刚搬来的年轻媳妇,
我都没敢说是我的,
想不明白,我得找律师仲裁一下,这万一我仲裁胜出了,我该咋办呢?越想越兴奋,结果又是一个不眠之夜!