FastDFS HOWTO －同步机制_综合

[quote]happy_fish100 发表于 2009-02-19 10:25

FastDFS HOWTO －同步机制
在FastDFS的服务器端配置文件中，bind_addr这个参数用于需要绑定本机IP地址的场合。只有这个参数和主机特征相关，其余参数都是可以统一配置的。在不需要绑定本机的情况下，为了便于管理和维护，建议所有tracker server的配置文件相同，同组内的所有storage server的配置文件相同。

tracker server的配置文件中没有出现storage server，而storage server的配置文件中会列举出所有的tracker server。这就决定了storage server和tracker server之间的连接由storage server主动发起，storage server为每个tracker server启动一个线程进行连接和通讯，这部分的通信协议请参阅《FastDFS HOWTO -- Protocol》中的“2. storage server to tracker server command”。

tracker server会在内存中保存storage分组及各个组下的storage server，并将连接过自己的storage server及其分组保存到文件中，以便下次重启服务时能直接从本地磁盘中获得storage相关信息。storage server会在内存中记录本组的所有服务器，并将服务器信息记录到文件中。tracker server和storage server之间相互同步storage server列表：
1. 如果一个组内增加了新的storage server或者storage server的状态发生了改变，tracker server都会将storage server列表同步给该组内的所有storage server。以新增storage server为例，因为新加入的storage server主动连接tracker server，tracker server发现有新的storage server加入，就会将该组内所有的storage server返回给新加入的storage server，并重新将该组的storage server列表返回给该组内的其他storage server；
2. 如果新增加一台tracker server，storage server连接该tracker server，发现该tracker server返回的本组storage server列表比本机记录的要少，就会将该tracker server上没有的storage server同步给该tracker server。

同一组内的storage server之间是对等的，文件上传、删除等操作可以在任意一台storage server上进行。文件同步只在同组内的storage server之间进行，采用push方式，即源服务器同步给目标服务器。以文件上传为例，假设一个组内有3台storage server A、B和C，文件F上传到服务器B，由B将文件F同步到其余的两台服务器A和C。我们不妨把文件F上传到服务器B的操作为源头操作，在服务器B上的F文件为源头数据；文件F被同步到服务器A和C的操作为备份操作，在A和C上的F文件为备份数据。同步规则总结如下：
1. 只在本组内的storage server之间进行同步；
2. 源头数据才需要同步，备份数据不需要再次同步，否则就构成环路了；
3. 上述第二条规则有个例外，就是新增加一台storage server时，由已有的一台storage server将已有的所有数据（包括源头数据和备份数据）同步给该新增服务器。

storage server有7个状态，如下：
# FDFS_STORAGE_STATUS_INIT :初始化，尚未得到同步已有数据的源服务器
# FDFS_STORAGE_STATUS_WAIT_SYNC :等待同步，已得到同步已有数据的源服务器
# FDFS_STORAGE_STATUS_SYNCING :同步中
# FDFS_STORAGE_STATUS_DELETED :已删除，该服务器从本组中摘除（注：本状态的功能尚未实现）
# FDFS_STORAGE_STATUS_OFFLINE :离线
# FDFS_STORAGE_STATUS_ONLINE :在线，尚不能提供服务
# FDFS_STORAGE_STATUS_ACTIVE :在线，可以提供服务

当storage server的状态为FDFS_STORAGE_STATUS_ONLINE时，当该storage server向tracker server发起一次heart beat时，tracker server将其状态更改为FDFS_STORAGE_STATUS_ACTIVE。

组内新增加一台storage server A时，由系统自动完成已有数据同步，处理逻辑如下：
1. storage server A连接tracker server，tracker server将storage server A的状态设置为FDFS_STORAGE_STATUS_INIT。storage server A询问追加同步的源服务器和追加同步截至时间点，如果该组内只有storage server A或该组内已成功上传的文件数为0，则没有数据需要同步，storage server A就可以提供在线服务，此时tracker将其状态设置为FDFS_STORAGE_STATUS_ONLINE，否则tracker server将其状态设置为FDFS_STORAGE_STATUS_WAIT_SYNC，进入第二步的处理；
2. 假设tracker server分配向storage server A同步已有数据的源storage server为B。同组的storage server和tracker server通讯得知新增了storage server A，将启动同步线程，并向tracker server询问向storage server A追加同步的源服务器和截至时间点。storage server B将把截至时间点之前的所有数据同步给storage server A；而其余的storage server从截至时间点之后进行正常同步，只把源头数据同步给storage server A。到了截至时间点之后，storage server B对storage server A的同步将由追加同步切换为正常同步，只同步源头数据；
3. storage server B向storage server A同步完所有数据，暂时没有数据要同步时，storage server B请求tracker server将storage server A的状态设置为FDFS_STORAGE_STATUS_ONLINE；
4 当storage server A向tracker server发起heart beat时，tracker server将其状态更改为FDFS_STORAGE_STATUS_ACTIVE。
runch 发表于 2009-03-10 09:58

在FastDFS的服务器端配置文件中，bind_addr这个参数用于需要绑定本机IP地址的场合。

请问什么场合下需要绑定IP地址？什么场合下不需要绑定IP地址？
happy_fish100 发表于 2009-03-10 11:36

回复 #2 runch 的帖子
通常是不需要绑定本机IP地址的。
如果有多个IP地址，只想让其中的一个IP提供服务（tracker或storage），就可以通过本参数来实现。
crastyl 发表于 2009-05-27 16:24

请问一下hapyfish 。客户端怎末挂载这些目录呢。。具体现在还不是很明白。客户端怎末访问数据？
happy_fish100 发表于 2009-06-01 12:27

回复 #4 crastyl 的帖子
FastDFS不是一个通用的文件系统，它是专用的文件系统，不能moint使用，只能通过API进行文件上传、下载等操作。
happy_fastdfs 发表于 2009-07-27 15:29

回复 #1 happy_fish100 的帖子
请问文件同步过程中，用户请求下载该文件时，会得到什么结果？
例如文件F在storage A上传OK，问题1，是先返回OK，然后再来同步给同组的storage B吧？这个同步是立即开始，还是由专门的线程异步处理？

问题2，猜的是异步处理的，如果在A-->B同步文件F的过程中，用户请求下载文件F，tracker会把B返回给用户来请求下载吗？是否这种情况会存在下载不到完整文件的问题？
happy_fish100 发表于 2009-07-27 22:54

回复 #6 happy_fastdfs 的帖子
>> 例如文件F在storage A上传OK，问题1，是先返回OK，然后再来同步给同组的storage B吧？这个同步是立即开始，还是由专门的线程异步处理？
文件同步是异步的。由专门的线程做同步工作。

>> 问题2，猜的是异步处理的，如果在A-->B同步文件F的过程中，用户请求下载文件F，tracker会把B返回给用户来请求下载吗？是否这种情况会存在下载不到完整文件的问题？

的确是异步的。如果下载的文件还在同步过程中，tracker只会返回服务器A，不会返回服务器B。
happy_fastdfs 发表于 2009-07-28 15:12

回复 #7 happy_fish100 的帖子
>> 问题2，猜的是异步处理的，如果在A-->B同步文件F的过程中，用户请求下载文件F，tracker会把B返回给用户来请求下载吗？是否这种情况会存在下载不到完整文件的问题？

的确是异步的。如果下载的文件还在同步过程中，tracker只会返回服务器A，不会返回服务器B。

-----
谢谢你这么快就回复。
有一点还没明白：
tracker怎么知道storage还没同步完呢？
在一个storage已经加入group并开始对外服务后，storage的心跳信息不会那么快上报，storage也不会针对每个文件同步OK后给tracker报告状态吧。

从协议HOW TO文档没能串起来理清这个流程。当然，上传文件F成功后瞬间就来下载文件F，这种情况可以在
应用中设法避免。
happy_fish100 发表于 2009-07-28 22:39

回复 #8 happy_fastdfs 的帖子
>>tracker怎么知道storage还没同步完呢？
storage server会定时向tracker server报告同步到其他服务器的状态，tracker server会记录同步到一台storage server的文件的最旧创建时间。如果要下载的文件创建时间比同步到该storage server的文件时间要新，那么就返回上传该文件的源storage server；否则返回当前storage server。

>>在一个storage已经加入group并开始对外服务后，storage的心跳信息不会那么快上报，storage也不会针对每个文件同步OK后给tracker报告状态吧。
是的。由storage server定期报告给tracker server，比如30秒报告一次。
happy_fastdfs 发表于 2009-07-29 11:36

回复 #9 happy_fish100 的帖子
哥们，你这个系统做得貌似简单其实精巧！

仔细看了下机制，明白文件命名的好处了：
数据文件名由系统自动生成，包括4部分：存储服务器IP地址、当前时间（Unix时间戳）、文件大小（字节数）和随机数。文件名长度为22字节。

step1，tracker收到下载文件的请求时，从v1.2开始就可以直接从请求的文件名内解析出storage_ip和文件上传时间（Unix时间戳）、结合请求传来的的group；

step2.然后从该group存活的storage列表中找这个storage_ip（即该文件原来上传的ip，源ip），要是这个storage_ip停掉了即查找失败，则取该group内的存活的下一个storage_ip1并且比较文件上传时间和该storage_ip1同步时间戳,没有符合条件的好像会取该group内一个存活的ip给客户端。代码内这个机制要是注释清楚一些就更好了：）

step3，storage定期向tracker通报自己的最新做完的文件同步时间戳，这个时间戳需要退出tracker时才flush到storage_servers.dat，运行时我等了十来分钟都没看到更新进去。
storage_servers.dat中记录storage server相关信息，字段依次为：
……
16. stat.last_source_update：最近一次源头更新时间（更新操作来自客户端）
17. stat.last_sync_update：最近一次同步更新时间（更新操作来自其他storage server的同步）

非常感谢快乐鱼！
wgcno7 发表于 2009-11-26 16:13

问一个弱问题：
同一组内的storage server之间的关系是什么？
happy_fish100 发表于 2009-11-26 18:46

回复 #11 wgcno7 的帖子
冗余备份关系。同一组storage server上的文件完全相同的。
zhengwei_zw 发表于 2010-01-28 17:23

按楼上说的
意思就是
同组内无副本数设置？
全部一样？
happy_fish100 发表于 2010-01-29 09:08

[quote]原帖由 [i]zhengwei_zw[/i] 于 2010-1-28 17:23 发表 [url=http://linux.chinaunix.net/bbs/redirect.php?goto=findpost&pid=7207632&ptid=1062527][img]http://linux.chinaunix.net/bbs/images/common/back.gif[/img][/url]
按楼上说的
意思就是
同组内无副本数设置？
全部一样？ [/quote]

是的。一个组的机器数，就是文件副本数。
一个组至少有一台机器，可以有两台、三台等等。通常一个组有两台机器就可以了，具体需要几台服务器，取决于存储服务器的访问压力。 [/quote]

FastDFS HOWTO － 同步机制

FastDFS HOWTO －同步机制