统计和分析是数据科学的两个重要的分支,人们经常会就如何给它们划定界限而产生激烈的讨论。实际上,这些分支的现代培训计划强调完全不同的方面。虽然分析师专注于探索数据中的内容,但统计学家更关注的是推断超出它的内容。
人工搜索引擎
当你掌握了所有与你的目标相关的事实时,利用数据提问和回答问题只需要查一下答案就行了。
基本分析的实际应用如谷歌搜索天气。无论何时使用搜索引擎都是在做基本的分析,可以调出天气数据。
甚至连孩子们也可以毫不费力地在网上查找事实,这就是数据科学的民主化。想知道两个城市哪个更冷,你可以马上查到相关信息。这很简单,我们甚至不再称之为分析,尽管它是。
如果报告基本事实是你的工作,那么你基本上是在做人工搜索引擎的工作。不幸的是,人工搜索引擎的工作安全依赖于你的老板,但他们往往不知道,各种分析工具使查询公司内部信息变得像使用谷歌搜索一样容易。
灵感探路者
这意味着分析师都失业了吗?不是的,用数据回答特定问题要比先产生哪些问题值得问容易得多。
简而言之,数据分析专家的工作是获取未开发数据集并挖掘数据、获取灵感的过程。
你需要快速的编码技巧和敏锐的感觉。数据集越大,您对它可能提供的事实类型的了解就越少,就越难以在不浪费时间的情况下获得答案。而且你需要强烈的好奇心和坚韧的态度来处理之前一无所知的问题。
虽然分析培训项目通常会让学生掌握查看大量数据集的软件技能,但统计培训项目更有可能让这些技能成为可选技能。
超越已知事实
当您必须处理不完整的信息时,就会出现障碍。当有不确定性时,你所拥有的数据并不能反映你感兴趣的内容,所以在得出结论时需要格外小心,这就是优秀的分析师根本不会得出结论的原因。
相反,如果他们发现自己超越了事实,他们反而心胸会更广阔。保持头脑开放是至关重要的,否则你就会陷入认知偏见,如果数据中有20个事实,你只会注意到其中你相信的那个,然后就会忽略其他的。
初学者认为探索性分析的目的是在真正提出问题的时候回答问题。
这就是培训计划的重点改变的地方:在不确定性下避免愚蠢的结论是每个统计课程的内容,而分析程序几乎不会划分推理数学和认识论的细微差别。
分析可帮助您形成假设,它可以提高您的问题质量。
统计信息可帮助您检验假设,它可以提高答案的质量。
其中,一个常见的错误是认为探索性分析是在提出问题时回答问题,分析师的数据探索是如何确保提问更有意义的问题,但其实分析可以帮助你形成假设,而统计可以让你测试它们。
统计学家可以帮助你测试行为是否明智,就好像分析师在当前数据集中发现的现象也适用于其他数据集一样。
其他数据科学类型的人对分析师有一定程度的不认同,他们似乎认为自己更合理,因为他们的方程式更复杂。首先,专家分析师使用所有相同的方程式(只是用于不同的目的),其次,如果你从侧面看宽而浅,它看起来同样窄而深。
在好问题和好答案之间做出选择是痛苦的(而且常常是过时的)。所以,如果您能同时负担得起这两种数据专业人员一起工作,那就最好了。然而,这样做的代价不仅仅是人员,还需要大量的数据和数据文化来利用他们的贡献。拥有至少两个数据集可以让你率先得到洞察力,然后根据想象之外的东西来形成你的理论,检查它们是否站得住脚。
拥有大量数据的人不习惯分离数据的唯一原因是,在上个世纪的数据饥荒中这种方法是行不通的。很难收集到足够的数据来进行分析,所以长久以来在分析和统计之间筑起了一道坚固的墙,以至于今天每个阵营对彼此都没有什么好感。
这是一个老掉牙的观点。这一遗留问题导致了统计学家以及分析师的错误观点。如果你关心从数据中提取价值,并且有大量的数据,那你需要利用自身的严谨,将数据放在最合适的地方。
一旦你意识到,数据分析允许一个学科变成另一个学科的好帮手,你就会发现自己要如何处理数据,并且能游刃有余。
很多数据科学的失败都是由于对分析功能的误解造成的。数据科学的有效性取决于强大的分析,或许你会在错误的地方一直前进。所以更需要投资数据分析师和统计学家,以对数据进行更全面的分析,得出更有洞察力的结论。
文章来源于网络,如若侵权,请联系站长删除。
本站承接各类商务合作,如有合作需求,请联系我们。