1. 首页
  2. 未分类

从数据可视化到交互式数据分析

“u003Cdivu003Eu003Ch1u003Eu003Cstrongu003E发现有很多想要学习Python却不知道如何下手的朋友,我这里整理了一些关于Python的学习资料,从基础到入门到实战都有!有需要的朋友可以关注并私信“01”免费获取…u003Cu002Fstrongu003Eu003Cu002Fh1u003Eu003Cpu003E高可视性的可视化项目主要关注两个目的: 带来灵感和帮助解释。然而,可视化可以通过数据分析来增加对复杂问题的理解,这样的项目虽然不多见,但不代表不重要。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fdfic-imagehandleru002Ff28b9b31-77d0-4ed5-b0a6-fa19e8948bd8″ img_width=”1200″ img_height=”800″ alt=”从数据可视化到交互式数据分析” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003Eu003Cstrongu003E 数据可视化的三个主要用途u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E我知道我这样总结可能存在严重简化的风险。但是,我发现根据主要目的(有意或无意)确定数据可视化的三类主要用途是很有用的,这也有助于我在本文后面阐明一些观点。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cbru003Eu003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E1. 激动人心。u003Cu002Fstrongu003E第一个用途是激励人们,让人们惊叹!但这种惊叹不仅仅是在肤浅的表面,而是真正让人们获得更深层次的思考、美感和敬畏。可视化具有令人难以置信的力量,可以吸引人们的注意力,同时也可以将它们引入梦幻般的虚拟世界,将抽象概念转化为更有形的存在。我见过最具启发灵感的一个完美的可视化例子是我朋友Giorgia Lupi的一个作品,是他用自己独特的手绘风格(以及数字)所创作的杰作。(点击链接可以看看最近在现代艺术博物馆展出的照片 check this recent one exposed at MOMA)u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E2. 解释现象u003Cu002Fstrongu003E。第二个用途是使用图形图表来说明一些复杂的想法,现象或过程。这是一个图形表现的领域:人类是视觉生物,所以一张图片有时胜过千言万语。多年来,数据新闻为通过数据解释复杂事物的艺术提供了很好的贡献(参见《纽约时报》和《华盛顿邮报》多年来所做的令人惊叹的工作)。同时这也属于教育领域,尤其是基于数字和图表的科学教育。这也是最近一个被称为“探索性解释”(“explorable explanations”)的美丽潮流的领域,由布雷特·维克托(Bret Victor)开创,并被尼基·凯斯(Nicky Case)等许多了不起的人推广开来。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fdfic-imagehandleru002F87658dc3-97f7-477a-8497-2864a3656a67″ img_width=”1200″ img_height=”799″ alt=”从数据可视化到交互式数据分析” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cp class=”ql-align-justify”u003Eu003Cbru003Eu003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E3. 分析问题u003Cu002Fstrongu003E。第三个用途是从数据中提取信息,用来解释问题同时增加对一些有趣现象的理解。当然,解释性可视化也有助于人们理解某些事物。但这里的主要区别在于,在解释性的可视化中,作者已经知道了可视化的内容(在执行了一些分析之后),而在分析学中,可视化的主要价值是帮助人们第一时间理解数据。人们已经使用了一百万个名字来定义此活动。最新和最时尚的名字是数字科学,更具体地说是数据科学的一部分,称为“探索性数据分析”,这是几十年前伟大的约翰·图基( John Tukey)发明的术语。简单起见,我将其称为:数据分析,或者是视觉数据分析,甚至是交互式视觉数据分析,以强调是可以与之交互的图形表现(学术界和商界也称之为视觉分析)。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E为何更多地谈论数据分析?u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003E这篇文章,以及之前的演讲,旨在更好地定义可视化在数据分析中的角色,并激发更多关于可视化领域正在发生的事情的讨论,遗憾的事,这件事情并没有像其他事情那样引人注目。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E但为什么要专注于分析?它有什么特别之处?u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003E我的理由是,数据分析是一项基础的人类技术活动,它有可能帮助人们解决重要的社会和科学问题。更确切地说,我认为数据分析很重要,因为这项活动可以帮助人们提高对复杂现象的理解,从而帮助人们解决重要问题。这是一个间接但却重要的联系:如果我能更好地理解一个问题,那我找到更好问题解决方案的可能性就越大。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003E世界上不乏有趣而重要的问题,是我们希望通过数据分析能更好地理解的。以下是我个人经历中的一些案例。我在这里描述它们并不一定是因为它们是我们能够解决的最重要的问题,而是因为我对这两个案例很熟悉。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E监测和认识医疗事故u003Cu002Fstrongu003E。在过去几年里,我的实验室一直与一家在纽约市很受欢迎的独立新闻工作室 ProPublica合作。我们帮助他们筛选了来自Yelp的大量医学评论,以识别和理解人们与医生及其服务之间存在的问题。你要如何才能让数以百万计的评论变得有意义?如何发现可疑事件?如何识别值得关注的评论?事实证明,即使简单如一个全局的“分面搜索”界面,对这项任务也是非常有用的。我们开发了一个名为RevEx 的简单工具,它使得我们的合作伙伴能够监测医疗事故上取得一些进展,并就他们的发现发表一些令人关注的文章。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F0ec29e554bd24de4ba04d3ac350a5c81″ img_width=”1080″ img_height=”659″ alt=”从数据可视化到交互式数据分析” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cp class=”ql-align-justify”u003Eu003Cbru003Eu003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003ERevEx。我们开发的一个交互式数据探索工具,帮助ProPublica的查尔斯·奥恩斯坦(Charles Ornstein)从Yelp的数百万条评论中筛选信息。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E了解诈骗和诈骗者。u003Cu002Fstrongu003E这是我们最近与 Agari公司建立的合作。他们的主要目标是追捕骗子并扰乱他们的活动。他们收集有关骗子活动极其有趣的数据,希望利用这些数据更好地保护个人和企业免受恶意攻击。这非常重要!与他们交谈,我更好地了解到诈骗对一些人造成了多么糟糕的影响。有些人的生活因为骗子的不法行为而被彻底毁掉了。这不仅仅是收件箱中收到垃圾邮件而已。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E关于“理解”u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003E你注意到了吗?当我们谈论数据分析问题时,我们经常将目标描述为“理解”某些东西。然后我们可以假设数据分析的主要目的是通过数据更好地理解某些东西。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cbru003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002Fedf7cf2f52ec4e54924d9562326a1b9f” img_width=”1080″ img_height=”430″ alt=”从数据可视化到交互式数据分析” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cp class=”ql-align-justify”u003Eu003Cbru003Eu003Cu002Fpu003Eu003Cp class=”ql-align-center”u003E现实,数据u002F统计模型。人类心理模型之间的关系。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003E这个关系是这样的:数据u002F模型是我们想要研究的一些现实的描述。人类对现实有一个心理模型,并使用数据u002F模型来研究它,以便可以更好地理解它。(这个概念值得整篇博文,我希望在不久的将来可以写一篇。)u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E 交互式数据分析如何工作?u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F67585818ec01460487876df30696e583″ img_width=”1080″ img_height=”672″ alt=”从数据可视化到交互式数据分析” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cp class=”ql-align-justify”u003Eu003Cbru003Eu003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003E交互式数据分析主要以循环方式运行。你从某个松散指定的目标开始,将目标转换为一个或多个问题,组织和分析数据来回答这些问题,生产新的问题并重新开始。为了更清晰描述这个过程,我为这个过程梳理了以下步骤:u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E1. 界定难题u003Cu002Fstrongu003E。每个项目都以难题陈述开头。你想解决什么难题?你的最终目标是什么?从数据分析中获得的更多理解将如何使你更接近你的目标?u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E2. 生成问题u003Cu002Fstrongu003E。难题说明通常太高级且宽泛,无法直接转换为数据分析操作(这个问题经常被忽视且未被充分理解)。通常,需要将难题(隐式地,或者更好地,显式地)转换为许多数据分析问题。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E3. 收集,转换和熟悉数据u003Cu002Fstrongu003E。有些项目有可用的数据,而有些则需要一定程度的数据搜索或生成。在任何情况下,所有的项目都要求分析人员熟悉内容及其含义并执行多项转换,既要熟悉数据(例如:经常对数据进行切片,切割和聚合)又要为计划进行的分析做好准备。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E4. 从数据中创建模型u003Cu002Fstrongu003E。并非所有项目都需要这一步,但有些项目需要。当通过建立模型可以更容易地解答问题时,使用统计建模和机器学习的方法会很有用。虽然建模人员谈论的大部分内容只是预测,但模型对于探索和生成假设来说依然是非常强大的工具。可以用于此步骤的方法包括聚类、降维、简单回归和将文本转换为有意义的数字的各种NLP(自然语言处理)方法。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E5. 可视化数据和模型u003Cu002Fstrongu003E。这是眼睛能够观察数据的一步。现在,大多数人在考虑到这个阶段时会联想到花哨的图表,但是像表格和列表这种简单的表达方式对于很多问题来讲反而是非常合理的可视化表达。在这里,从数据转换和查询(或从某些模型)获得的结果被转换成我们的眼睛可以消化并能够理解的内容。这是我们所有人,数据可视化者热爱的一步。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E6. 诠释结果u003Cu002Fstrongu003E。一旦结果生成并以某种视觉形式呈现,就需要有人对其进行解释。这是至关重要的一步,也是经常被忽视的一步。展示屏幕背后有这样一个人,他需要理解所有这些彩色点和数字的含义。这是一项复杂的操作,包括以下步骤: 理解如何阅读图表,理解图表针对感兴趣的现象传达了什么信息,将问题的结果与问题已有的知识联系起来。注意,这里的诠释很大程度上受已有知识的影响。至少包括领域问题,数据转换过程,建模和可视化表达的知识。这是可视化和分析另一个经常被忽视的方面。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E7. 生成推论并引出更多问题u003Cu002Fstrongu003E。所有这些步骤最终会产生一些新的知识,并且在大多数情况下,还会产生额外的问题或假设。这是数据分析的一个有趣特性:它的结果不仅是答案还有可能是问题;当我们希望能引出更好更准确的问题。这一步骤有一个重要点是,可能会产生不正确的推论。因此并非所有的过程都必然带来积极的结果,也不是所有的分析都同样有效。u003Cu002Fpu003Eu003Cp class=”ql-align-justify”u003Eu003Cstrongu003E u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:从数据可视化到交互式数据分析

主题测试文章,只做测试使用。发布者:熱鬧獨處,转转请注明出处:http://www.cxybcw.com/18235.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code