数据科学家曾一度被认为是成功的职业,但是最近有数据显示,他们花了大量的时间在整理数据,也就是处理用于分析的数据。他们称自己是“数据民工”。数据来源于一家众包公司CrowdFlower,他们调查了80个不同阶层的数据科学家。
通常,拥有高学历的人都想要做数据科学家这样的工作,但是60%以上的人说,他们大部分的时间都花在清理和组织数据上,花在分析任务、构建训练几何、研究算法上的时间很少。
“这个高薪的职位大部分的时间都在整理数据,这对公司来说是一个巨大的浪费。”CrowdFlower的CEO Lukas Biewald说。通过CrowdFlower的调查显示,整理数据也是数据科学家最不愿意做的工作。这对双方不利,但是80%的数据科学家表示,他们仍然喜欢自己的工作。
CrowdFlower的调查也显示出,数据科学家的工作在实际应用中有很大的不足。去年的调查中,79%的人承认这种不足,今年上升到了83%。
想成为数据科学家吗?CrowdFlower显示,最需要的技能是 SQL, Hadoop, Python, Java, R, Hive, MapReduce, NoSQL, Pig, 和 SAS。
半数以上的调查者称,下一个热门方向会是机器学习。近几年来很多CEO都忧虑:我们的大数据策略是什么?下一步他们应该问机器学习了。
我们的采集软件也可以用于对数据库里的数据进行数据清洗与整理,利用变形脚本实现。
原文:Hottest job? Data scientists say they’re still mostly digital ‘janitors’(译者/赖信涛 责编/孙思)