MongoDB数据去重（单字段和多字段去重）（百万级数据）

浩·

14510人浏览 · 2023-01-03 11:20:48

浩· · 2023-01-03 11:20:48 发布

1、打开Mongo数据库，查询是否有数据重复

①、查询DB_Name数据库中的item_id字段重复数据（单字段）：

db.DB_Name.aggregate([
    { $group: { _id : '$item_id', count: { $sum : 1 } } },
    { $match: { count: { $gt : 1} } }
],{allowDiskUse:true})        // 允许利用磁盘空间，防止出现内存不足

运行输出结果：

②、多字段查询：

跟只需要将单字段的 _id : '$item_id' 后面的 item_id 改成字典格式，即

_id : {item_id:"$item_id",status_Update:"$status_Update"}

// 若是需要多字段的话：
db.DB_Name.aggregate([
    { $group: { _id : {item_id:"$item_id",status_Update:"$status_Update"}, count: { $sum : 1 } } },
    { $match: { count: { $gt : 1} } }
],{allowDiskUse:true})        // 允许利用磁盘空间，防止出现内存不足

运行输出结果：

2、数据去重处理

原理：先将重复的数据加入到一个数组dups中，然后再利用forEach循环将dups数组的数据全部删除

 db.DB_Name.aggregate([
    {
        $group: { _id: {item_id: '$item_id'},count: {$sum: 1},dups: {$addToSet: '$_id'}}
    },    // 若出现重复则把_id加入到dups数组中
    {
        $match: {count: {$gt: 1}}
    }
	],{allowDiskUse: true}).forEach( //（使用forEach循环根据_id删除数据）
    function(doc){ 
        doc.dups.shift(); 
        db.DB_Name.remove(
            {
                _id: {
                    $in: doc.dups
                }
            }
        ); 
    }
)