数据科学家和数据工程师是不是一回事?
可能数据科学家”和“数据工程师”咱们也没太听过,但它们核心的工作角色已经存在了一段时间。尤其是最近,这几个科学家啊,工程师啊,大数据等等火的不行不行啊。企业和研究中心开始出现新的角色,也就是数据科学家和数据工程师。
在日常工作中,数据科学家与数据工程师,二者常常被混为一谈,而实际上,他们在专业背景和技能上区别多多。下面就仔细来说:
数据工程师
所谓数据工程师,指的则是那些为数据科学家们提供基础“大数据”的人。咱通俗点来说,他们是设计、建造、整合各种数据资源并管理大数据的软件工程师。除此之外,他们还要基于大数据编写复杂的queries,确保它们容易访问,运行流畅,因此他们的主要目标是优化公司大数据生态系统的性能。
他们同时也可能在大数据集的基础上运行一些ETL(提取,转换和加载)和创建大数据仓库,以便于数据科学家撰写报告和进行分析。除此之外,因为数据工程师更专注于设计和架构,他们通常不擅长机器学习和大数据分析。
他们需要掌握的技能及常用工具:
Programming Hadoop MapReduce Hive Pig MySQL MongoDB Cassandra Data streaming NoSQL SQL
数据科学家
数据科学家就是利用统计、机器学习和分析方法来解决关键业务问题,帮助公司将大数据量化为有价值、可操作的见解。事实上,数据科学本身并不是一个新领域,但它可以被看做是数据分析的前景——一个被机器学习和计算机科学所驱动的时代。换句话说,与“数据分析师”相比,数据科学家除了数据分析技能之外,一般也拥有较强的编程技能、设计新的算法的能力、处理大数据的能力以及其他领域知识的一些专业知识。
此外,数据科学家通常也能够借助可视化技术、建立数据科学的应用程序或用有趣的故事,更好地阐述他们通过分析数据得出的对业务问题的解决方案。
数据科学家的问题解决能力通常建立在对新老数据进行分析、建立模型和发现数据模式的基础之上。例如创建一个推荐引擎来进行股票市场预测,就需要数据科学家在相似性的基础上进行模式分析,或者发现欺诈交易模式。
数据科学家在面对大数据时,有时并没有特定的业务问题解决需求。在这种情况下,具有好奇心的数据科学家通常会探索数据,提出正确的问题,并得出有趣的探索结果。这件事情最难的地方在于,要想分析这些数据,就要求强大的数据科学家应该在机器学习、数据挖掘、统计和大数据基础方面具有极其广泛的知识储备和足够的能力。
数据科学家需要拥有处理不同大小、不同形状的数据集的能力,并且应该有能力在巨大的数据下快速且高效的运行自己的算法,而这通常意味着要时刻紧跟最新的尖端技术。这也就是为什么数据科学家要了解计算机科学的基本原理和编程,包括各种语言编写经验和数据库的技术了。
他们需要掌握的技能及常用工具:
Python R Scala Apache Spark Hadoop 数据挖掘工具和算法 机器学习 统计建模
这样说应该可以理解了吧,虽然他们都是运用数据,但工作的性质有很大差异,需要掌握的技能也有所区别。
猜你喜欢内容
-
怎样提高阅读理解能力
首先,我们要对“阅读理解能力”及对四级阅读理解的具体要求作一定的了解。教学大纲要求 “较强的阅读能...
-
怎样使句子多样化
句子是由词或短语按语法规则组成,表达一个完整意思的语言单位。好的英语句子应该是结构意思正确完整,...
-
我是如何过六级的
不管四级还是六级,真题绝对重要!!!那些乱七八糟的模拟题或是其他的什么资料纯粹是浪费钱,我第一次...
-
如何充分利用好听力真题
根据听真题的不同层次,基本上,可以把听题分为以下五个阶段: 1. 初听 众所周知,听真题时的第一感觉...
-
如何进行判断和推理
在阅读中,人们首先理解的是语言的字面意义。然而,语言所表达的内容常常超过其字面意义。这就需要我们...
-
如何抓主题思想
主题思想(the Main Idea)。也称作中心思想,是作者在文章中要表达的核心内容,也是作者自始自终要说明的...
-
如何确定作者的观点或态度
一篇文章不可避免地反映了作者的观点、态度和情绪。能否正确把握作者的观点和态度也是体现阅读能力的重...
-
如何找主要事实特定细节
在文章中,作者总是要通过许多具体内容(Details)来说明、解释、证明或分析文章的主题思想。在通读全文、...
-
如何猜测词义
在阅读中,我们往往会遇到一些不认识的单词或短语,或者认识的单词在文章中有了新意义。如果这些词或短...
-
我的跨跨跨专业考研
这是本人第一次发贴。偶从hj上发掘资源供自己使用已久,今年又勉强获得读硕的机会,因此对hj上的xdjm心...






















