找项目 找团队就上我要外包网! 请登录免费注册
客服热线:010-58408369
同城外包信息服务平台
找项目
首页>找项目>Web应用程序

数据库清理

  • 项目序号: 51waibao135
  • 项目分类: Web应用程序
  • 项目预算: 2000-6000元
  • 所在城市:
  • 开发周期: 31到90 天
  • 竞标结束: 项目已过期
  • 发布时间: 2009-08-22 21:39:22
  • 招标截止时间: 2009-09-05 00:00:00
  • 项目状态: 项目已审核
  • 分享到:
我要外包网声明:

我要外包网致力于打造诚信的同城外包服务平台,不会从中间收取发包方任何费用。请选择同城的团队,以便最大程度保护交易成功。

请核实团队信息!请谨慎交易风险!

联系方式:我要外包网致力于打造诚信的同城外包信息服务平台,需团队资料认证才能查看项目联系方式

项目介绍

我们使用SQL2000,数据据库主要字段为30个,包括姓名,性别,电话号码,手机号码,客户状态,所属员工,备注等等。
因为数据来源复杂,日积月累,数据库中现有20多万条数据,现在困扰我们的问题是数据有重复,而且有的数据可能有三四条甚至更多的重复。现在我们意欲将数据进行清洗,使数据达到唯一性。
现在需要做两个工作:
第一:数据清洗
以下是数据清洗去重的要求及规则:
如果要进行清洗,基本是以电话及手机号码为判断条件
1、查找电话号码这个字段,如有重复号码,则只保留一条数据;
2、查找手机号码这个字段,如有重复号码,则只保留一条数据;
3、交叉查找电话号码及手机号码字段,因为数据来源不同,电话号码字段中可能会存有手机号码,手机号码字段可能会存有电话号码,甚至有可能一个单元格中同时包括了手机号码和电话号码,甚至有的同时存在2个电话号码。
4、数据库中的电话号码大部分是纯数字的,但是还有一种情况如下所示:“妈妈:13701602288”。数据对比时,希望有模糊查找,比如系统内某条数据是“13701602288”,另外一条是“妈妈:13701602288”,则希望能够将他们也算作重复数据。
5、如果查找到有电话号码(或手机号码)重复,则按照客户状态字段来进行判断保留哪条数据。客户状态共有如下几种:需要,考虑,待处理,不需要,号码有误,号码无人接听/盲音。
优先级顺序如下所示:
需要>考虑>待处理>不需要=号码有误=号码无人接听/盲音
6、当遇见电话号码相同,而客户状态也相同时,则比较备注字段,如数据完全一致(包括备注相同,电话号码及移动电话相同),则随机保留一条。如果不完全一致,则比较备注字数,保留字数最多的数据。
7、查找出来需要删除的数据,需自动另存为到一个指定路径或者文件夹里,并且可以导出为excel格式,并且标注是哪个字段重复,属于哪个员工(我们的数据是由管理人员手动分配给员工的,如员工代号101,102,103,101的人在其客户端是看不到其他人的数据的,而管理人员有权限看到全部),这样万一有问题也可以把删除的数据再找回来。

第二:数据导入工具改进

目前我们使用excel的宏命令将外部数据导入到数据库中,但是此工具不管有无重复,都会将数据导入。我们现在希望可以在导入的同时自动和已有数据库中数据进行对比,如果发现有重复数据,则进行相应提示。

提示的主要功能如下:

导入数据比如有1000条,则将这批数据和已有数据库进行比对(基本上只对比电话号码和手机号码),先期将不重复数据直接导入,如果有重复数据出现,则弹出对话框进行提示,

对话框中内容包括,此次导入共有多少数据?多少条数据成功?多少条重复?

然后列出所有重复数据,在此步骤,我们可以鼠标点击单个重复数据的详细情况,如对比需导入数据与数据库中已有数据的各个字段,然后给出一个选择框,让我们选择:覆盖原有数据,忽略不导入,修改原有数据。


接包所在地限定为上海
 

发包方信息

  • 所在城市:
  • 加入时间: 2009/8/22 21:38:24
  • 认证: