排列三单双形态走势图:避免五大误区:数据科学家新手进阶之路

排列三豹子历史记录 www.wpeg2.com.cn 你为成为数据科学家做好了充分的准备。你参加Kaggle比赛,看了大量的Coursera课程。你感觉已经准备好了,但数据科学家的实际工作将与你的预期大不相同。

避免五大误区:数据科学家新手进阶之路

  • 作者?Jan Zawadzki
  • 编译 ?Mika
你为成为数据科学家做好了充分的准备。你参加Kaggle比赛,看了大量的Coursera课程。你感觉已经准备好了,但数据科学家的实际工作将与你的预期大不相同。

避免五大误区:数据科学家新手进阶之路

本文探讨了数据科学家新手的5个常见误区。这是我在Sébastien Foucaud博士的帮助下一起总结的,他在学术界和行业领域指导年轻数据科学家有超过20年的经验。本文旨在帮助你更好地走向数据科学家进阶之路。

避免五大误区:数据科学家新手进阶之路

误区1 热衷参加Kaggle比赛

避免五大误区:数据科学家新手进阶之路

你通过参与Kaggle比赛练习了数据科学技能。如果你掌握决策树和神经网络那就更好了。但其实作为数据科学家,你不需要完成那么多模型融合。通常,你将花80%的时间进行数据预处理,剩下20%的时间用于构建模型。

避免五大误区:数据科学家新手进阶之路

参加Kaggle比赛的好处在于,给出的数据都很干净,从而你有更多的时间调整模型。但是在实际工作中很少出现这种情况,你需要使用不同的格式和命名方式来汇总不同来源的数据。

你需要做的是,熟练掌握你大部分时间将要做的事,即数据预处理。例如抓取图像或从API收集图像;从Genius收集歌词数据等。为解决特定问题准备所需的数据,然后将其输入到计算机中开始机器学习生命周期。精通数据预处理无疑将大大帮助你成为一名出色的数据科学家,从而让你在公司制定决策中起到关键作用。

误区2 神经网络能搞定一切

深度学习模型在计算机视觉和自然语言处理领域优于其他机器学习模型,但也有明显的缺点。

避免五大误区:数据科学家新手进阶之路

神经网络需要大量数据。如果样本较少,那么使用决策树或逻辑回归模型效果会更好。众所周知,神经网络难以说明和解释,因此也被称为”黑匣子“。当产品负责人或主管对模型输出产生质疑时,你需要进行解释,而传统的模型更容易解释。

避免五大误区:数据科学家新手进阶之路

有很多出色的统计学习模型,你需要了解其优缺点,并根据具体任务应用相关模型。除非是用于计算机视觉或自然语音识别等专业领域,否则传统的机器学习算法的成功率会更高。你很快就会发现,像逻辑回归等简单模型是最好的模型。

避免五大误区:数据科学家新手进阶之路

来源:来自scikit-learn.org的算法表

误区3 机器学习是产品

在过去十年里,机器学习大受吹捧,许多创业公司都认为机器学习能解决任何存在的问题。

避免五大误区:数据科学家新手进阶之路

来源:过去5年中机器学习的谷歌指数趋势

机器学习永远不应该是产品?;餮笆乔看蟮墓ぞ?,用于生产满足客户需求的产品?;餮翱梢杂糜谌每突盏骄嫉纳唐吠萍?;准确识别图像中的对象;帮助企业向用户展示有价值的广告。

作为数据科学家,你必须以满足客户需求为目标制定计划,在此基础上你才能充分利用机器学习。

误区4 混淆因果关系与相关性

大约90%的数据是在过去几年中产生的。随着大数据的出现,机器学习从业者能够获得大量数据。由于有大量的数据需要分析评估,学习模型也更容易发现随机的相关性。

避免五大误区:数据科学家新手进阶之路

来源://www.tylervigen.com/spurious-correlations

上图显示了美国小姐的年龄与蒸汽、热蒸汽和发热物体导致的谋杀总数。根据这些数据,算法会发现美国小姐的年龄与某些物体导致谋杀间的模式。然而,这些数据点实际上是无关的,并且这两个变量对其他变量没有任何预测作用。

当在数据中发现模式时,要应用你的专业知识。当中是相关性还是因果关系?回答这些问题是从数据中得出分析见解的关键。

误区5 优化错误的指标

开发机器学习模型遵循敏捷的生命周期。首先,你定义概念和关键指标。然后,将结果原型化。接着,不断进行改进直到指标令你满意。

避免五大误区:数据科学家新手进阶之路

在构建机器学习模型时,记得要进行手动错误分析。虽然这个过程繁琐且费时费力,但可以帮助你在迭代中有效地改进模型。

结语

年轻的数据科学家能为公司提供巨大价值。他们通常是自学成才,因为很少有大学设有数据科学学位。同时他们具有强烈的好奇心,并且对自己选择的领域充满热情,并渴望了解更多的知识。对于刚入行的数据科学家来说,一定要注意以上提到的误区。

注意以下几点:

· 练习数据管理

· 研究不同模型的优缺点

· 让模型尽可能简单

· 检查结论中的因果性和相关性

· 优化最有希望的指标

原文链接:

https://towardsdatascience.com/top-5-mistakes-of-greenhorn-data-scientists-90fa26201d51

本站特约专栏文章,作者:CDA数据分析师,本文链接://www.wpeg2.com.cn/55688.html 。内容观点不代表本站立场,如若转载请联系专栏作者。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言 大数据交流群: 统? 计? 学 数据分析网-统计学 商业智能?数据分析网-商业智能 数据挖掘?数据分析-数据挖掘 数据产品?排列三豹子历史记录

QR code
  • 湖南煤业集团有限公司原党委书记覃道雄被逮捕 2019-05-24
  • 档案天天看——邓小平档案系列 2019-05-24
  • 世界杯开战!中国白酒五大“势力”强势进击,你更看好谁?世界杯 五粮液 2019-05-24
  • 新能源汽车产业升级将呈三大变化 2019-05-24
  • 回复@看着就想笑:不然小萌们不得瞎折腾啊?哪有那么多资源可供浪费? 2019-05-23
  • 惊险!早高峰轿车起火自燃  公交车司机合力扑救 2019-05-23
  • 好,那我领教一下,回答我提出的问题 2019-05-23
  • 东航客机与加油车碰擦 事发时滑行至廊桥附近[图] 2019-05-23
  • 邓洪波:古代大家族为什么盛行修书院 2019-05-22
  • 聚焦深贫地区 扎实把脱贫攻坚战推向前进 2019-05-22
  • 广安市委书记侯晓春做客人民网 2019-05-22
  • 陈扬勇谈“党的领导是中国特色社会主义最本质的特征” 2019-05-21
  • 珍贵!“国宝”林麝现身重庆金佛山 2019-05-21
  • 紫光阁中共中央国家机关工作委员会 2019-05-21
  • 航天员沙漠野外生存训练完美收官!为第一天团打call 2019-05-20
  • 178| 926| 818| 934| 470| 576| 894| 930| 832| 654|