独家 | 10个数据科学家常犯的编程错误(附解决方案)

初商 2019-08-25

数据派

作者:Norman Niemer

翻译:李润嘉

校对:李洁

文章来源:微信公众号 数据派THU

本文约2000字,建议阅读10分钟。

本文为资深数据科学家常见的10个错误提供解决方案。

----

数据科学家是“比软件工程师更擅长统计学,比统计学家更擅长软件工程的人”。许多数据科学家都具有统计学背景,但是在软件工程方面的经验甚少。我是一名资深数据科学家,在Stackoverflow的python编程方面排名前1%,并与许多(初级)数据科学家共事。以下是我经常看到的10大常见错误,本文将为你相关解决方案:

  • 不共享代码中引用的数据
  • 对无法访问的路径进行硬编码
  • 将代码与数据混合
  • 在Git中和源码一起提交数据
  • 编写函数而不是DAG
  • 写for循环
  • 不编写单元测试
  • 不写代码说明文档
  • 将数据保存为csv或pickle文件
  • 使用jupyter notebook

1. 不共享代码中引用

登录 后评论
下一篇
云攻略小攻
1390人浏览
2019-10-11
相关推荐
0
1
0
534