This topic has been archived. It cannot be replied.
-
工作学习 / 学科技术讨论 / 在Excel我常用Filter去发现错误数据, 大家用哪些方法?
-xxu99(金秋来了);
2010-3-20
(#5956929@0)
-
你说的这个属于Data Profiling or Exploratory Data Analysis的范畴,有专门的一套理论方法和工具。如果不是做IT的,需要用Excel实现或者数据量不大/格式比较固定的话,个人感觉比较简单的办法是手工或者写一个macro逐个计算各字段的最大最小值,平均值,Standard Deviation甚至再加上数据分布,Quantile, etc.
但是真正麻烦的地方在于,你发现之后又能怎么样?这就需要数据清洗(data cleaning),单是通常,数据都来自于某个应用系统的生产数据库,这就涉及应该由谁是用什么样的方法/工具在什么样的policy/process的规范下来修改数据的问题,尤其是财务人事等敏感机密数据更是如此。总之不是单单Excel甚至是技术的问题,越是大公司越是明显。
-renjl0810(继续使用,但不再喜欢);
2010-3-20
{444}
(#5957143@0)