MongoDB复制集原理_代码007(未授权)

本文介绍: MongoDB复制集原理

MongoDB 的复制集选举使用 Raft 算法（https://raft.github.io/）来实现，选举成功的必要条件是大多数投票节点存活。在具体的实现中，MongoDB 对 raft 协议添加了一些自己的扩展，这包括：

一个复制集最多可以有 50 个成员，但只有 7 个投票成员。这是因为一旦过多的成员参与数据复制、投票过程，将会带来更多可靠性方面的问题。

投票成员数	大多数	容忍失效数
1	1	0
2	2	0
3	2	1
4	3	1
5	3	2
6	4	2
7	4	3

当复制集内存活的成员数量不足大多数时，整个复制集将无法选举出主节点，此时无法提供写服务，这些节点都将处于只读状态。此外，如果希望避免平票结果的产生，最好使用奇数个节点成员，比如 3 个或 5 个。当然，在 MongoDB 复制集的实现中，对于平票问题已经提供了解决方案：

在故障转移场景中，我们所关心的问题是：

一个影响检测机制的因素是心跳，在复制集组建完成之后，各成员节点会开启定时器，持续向其他成员发起心跳，这里涉及的参数为 heartbeatIntervalMillis，即心跳间隔时间，默认值是 2s。如果心跳成功，则会持续以 2s 的频率继续发送心跳；如果心跳失败，则会立即重试心跳，一直到心跳恢复成功。
另一个重要的因素是选举超时检测，一次心跳检测失败并不会立即触发重新选举。实际上除了心跳，成员节点还会启动一个选举超时检测定时器，该定时器默认以 10s 的间隔执行，具体可以通过 electionTimeoutMillis 参数指定：

在 MongoDB 的实现中，选举超时检测的周期要略大于 electionTimeoutMillis 设定。该周期会加入一个随机偏移量，大约在 10～11.5s，如此的设计是为了错开多个备节点主动选举的时间，提升成功率。

# MongoDB Drivers 启用可重试写入
mongodb://localhost/?retryWrites=true
# mongo shell
mongosh --retryWrites

use local
db.oplog.rs.find().sort({$natural:-1}).pretty()

oplog 集合的大小可以通过参数replication.oplogSizeMB设置，对于 64 位系统来说，oplog 的默认值为：

oplogSizeMB = min(磁盘可用空间*5%，50GB)

# 将复制集成员的oplog大小修改为60g  
db.adminCommand({replSetResizeOplog: 1, size: 60000})
# 查看oplog大小
use local
db.oplog.rs.stats().maxSize

每一条 oplog 记录都描述了一次数据的原子性变更，对于 oplog 来说，必须保证是幂等性的。也就是说，对于同一个 oplog，无论进行多少次回放操作，数据的最终状态都会保持不变。某文档 x 字段当前值为 100，用户向 Primary 发送一条{$inc: {x: 1}}，记录 oplog 时会转化为一条{$set: {x: 101}的操作，才能保证幂等性。

db.coll.insert({_id:1,x:[1,2,3]})

rs0:PRIMARY> db.coll.update({_id: 1}, {$push: {x: { $each: [4, 5] }}})
WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 })
rs0:PRIMARY> db.coll.find()
{ "_id" : 1, "x" : [ 1, 2, 3, 4, 5 ] }
rs0:PRIMARY> use local
switched to db local
rs0:PRIMARY> db.oplog.rs.find({ns:"test.coll"}).sort({$natural:-1}).pretty()
{
    "op" : "u",
    "ns" : "test.coll",
    "ui" : UUID("69c871e8-8f99-4734-be5f-c9c5d8565198"),
    "o" : {
        "$v" : 1,
        "$set" : {
            "x.3" : 4,
            "x.4" : 5
        }
    },
    "o2" : {
        "_id" : 1
    },
    "ts" : Timestamp(1646223051, 1),
    "t" : NumberLong(4),
    "v" : NumberLong(2),
    "wall" : ISODate("2022-03-02T12:10:51.882Z")
}

rs0:PRIMARY> use test
switched to db test
rs0:PRIMARY> db.coll.update({_id: 1}, {$push: {x: { $each: [6, 7], $position: 0 }}})
WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 })
rs0:PRIMARY> db.coll.find()
{ "_id" : 1, "x" : [ 6, 7, 1, 2, 3, 4, 5 ] }
rs0:PRIMARY> use local
switched to db local
rs0:PRIMARY> db.oplog.rs.find({ns:"test.coll"}).sort({$natural:-1}).pretty()
{
    "op" : "u",
    "ns" : "test.coll",
    "ui" : UUID("69c871e8-8f99-4734-be5f-c9c5d8565198"),
    "o" : {
        "$v" : 1,
        "$set" : {
            "x" : [
                6,
                7,
                1,
                2,
                3,
                4,
                5
            ]
        }
    },
    "o2" : {
        "_id" : 1
    },
    "ts" : Timestamp(1646223232, 1),
    "t" : NumberLong(4),
    "v" : NumberLong(2),
    "wall" : ISODate("2022-03-02T12:13:52.076Z")
}

由于复制延迟是不可避免的，这意味着主备节点之间的数据无法保持绝对的同步。当复制集中的主节点宕机时，备节点会重新选举成为新的主节点。那么，当旧的主节点重新加入时，必须回滚掉之前的一些“脏日志数据”，以保证数据集与新的主节点一致。主备复制集合的差距越大，发生大量数据回滚的风险就越高。
对于写入的业务数据来说，如果已经被复制到了复制集的大多数节点，则可以避免被回滚的风险。应用上可以通过设定更高的写入级别（writeConcern：majority）来保证数据的持久性。这些由旧主节点回滚的数据会被写到单独的 rollback 目录下，必要的情况下仍然可以恢复这些数据。
当 rollback 发生时，MongoDB 将把 rollback 的数据以 BSON 格式存放到 dbpath 路径下 rollback 文件夹中， BSON 文件的命名格式如下：<database>.<collection>.<timestamp>.bson。

mongorestore --host 192.168.192:27018 --db test --collection emp -ufirechou -pfirechou 
--authenticationDatabase=admin rollback/emp_rollback.bson

cfg = rs.config()
cfg.settings.chainingAllowed = false
rs.reconfig（cfg)

db.adminCommand( { replSetSyncFrom: "hostname:port" })

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

mongodb 复制节点

复制集高可用

复制集选举

自动故障转移

复制集数据同步机制

什么是 oplog

幂等性

复制延迟

数据回滚

同步源选择

发表回复取消回复