SVN 项目迁移到 Git

前言


最近刚把公司项目从 SVN 迁移到了 Git 上,在这里做个记录。

数据迁移


# 检出空项目proj
svn co --depth=empty --username=user svn://url proj

# 进入proj目录
cd proj

# 获取user列表
echo '(no author) = no_author <no_author@no_author>' > ../users.txt
svn log ^/ --xml | grep -P "^<author" | sort -u | perl -pe 's/<author>(.*?)<\/author>/$1 = $1 <$1\@email.com>/' >> ../users.txt

# 对users.txt进行编辑 替换用户名和邮箱内容

cd ../ && rm -rf proj

# 检出svn r1版本到最新版本的数据
git svn clone -r1:HEAD svn://url --username=user --no-metadata --authors-file=users.txt proj

执行上面的步骤就可以将 SVN 项目导出到本地 Git 仓库了。不过,一般项目比较大导出时间会比较长,可以中断 git svn clone 操作,采用下面的命令分段迁移,避免长时间运行把电脑弄卡或者死机:

# 进入proj目录
cd proj

# 更新远程分支 git-svn 
git svn fetch

# 合并远程分支 git-svn 到 master 分支
git merge git-svn

# 如果迁移过程中svn地址有变动,可以修改 .git/config 文件中对应的url

这里说一个迁移的细节,可以提早进行 git svn clone 操作,在下班的时候 git svn fetch 快速更新到最新版本然后停掉 SVN 服务器。

多模块项目拆分


我们的项目是一个 maven 多模块项目,原先在 SVN 下可以给不同的人开放不同子模块的权限,而 Git 无法做到目录级权限控制,所以能想到的解决办法就是拆拆拆。不过,我们项目的子模块比较多 ( 20 多个 ),全拆感觉会要命,就简单拆成前端和后端两个仓库吧。

# 1. 将子模块 [module1] 拆分为新的分支 module1
git subtree split -P module1 -b module1

# 2. 清理 master 分支中包含子模块 [module1] 的内容
git filter-branch -f --index-filter "git rm -rf --cached --ignore-unmatch module1" --prune-empty master

# 3. 将子模块推送到新仓库的master分支
git push http://gitlab/module1.git module1:master

需要深入使用 subtree 可以参考下面的步骤,不过个人认为 subtree 的引用在日常开发中不是很方便,还不如工作空间下引入多个项目。

# 4. 父模块引入新的仓库作为子模块
git subtree add --prefix=module1 http://gitlab/module1.git master

# 5. 父模块中 pull 子模块的数据
git subtree pull --prefix=module1 http://gitlab/module1.git master

# 6. 父模块向子模块 push
git subtree push --prefix=module1 http://gitlab/module1.git master

遇到的问题


  • 耗时
    git svn clone , git subtree split , git filter-branch 这三个步骤非常的耗时间,需要合理安排时间, 中途要经常备份。我们的项目有 3w+commits ,在 i5 8gwin10 上耗时分别为 30 h, 2 h, 10 h,迁移后项目大小 300 M 。中途遇到过 蓝屏重启后索引错乱需要重头再来内存泄漏导致死机 ( 单独开篇讲 )、SVN 服务器经常断开连接 等等问题。

  • 空目录
    迁移后,原先的空目录会被删除,如果需要保持原有目录结构,可以在空目录下添加占位文件并提交到 SVN 上,之后再导入 Git 。参考 git 提交空文件夹

  • 换行符的问题
    SVN 上这个不算什么大问题,迁移到了 Git 上之后就成了大问题,因为有 autocrlf 这个配置项。一般人安装 Git 的时候要么选择默认设置,要么被网上的文章误导一顿操作结果越设置越乱。解决方法:

源码在仓库中统一用 LF 格式保存
在 Mac 上设置 autocrlf = input ( 检出的时候不转换,提交的时候自动转成 LF )
在 Windows 上设置 autocrlf = true ( 检出的时候自动转成 CRLF , 提交的时候自动转成 LF )

我们的项目比较可怕,是 CRLF 文件和 LF 文件混合的,可以采用下面的命令批量替换,然后提交到 SVN 上。

# 修改svn项目的换行符(linux下或者进入git-bash执行)
find . -type f -print -o -path ./.svn -prune | xargs dos2unix -k

对了,迁移完最好使用 Beyond Compare 4 这样的工具对比下。

  • 其他问题
    • 迁移用的 SVN 帐号最好有所有目录的权限
    • users.txt 中加一行 (no author) = no_author <no_author@no_author>
    • 最好用 Linux 服务器迁移,耗时能从以 小时 为单位提升到以 分钟 为单位,而且可以同时进行多个项目的迁移。

参考



结语


整个迁移步骤就上面简单的几步就好了,剩下的就是把本地仓库 push 到远程仓库 ( 如 gitlab ) 中即可,至于其他的坑各位自行体验吧。


转载请注明出处:https://www.jianshu.com/p/5dcf658851f7

推荐阅读更多精彩内容

  • 由于工作需要,要将原来本地的SVN项目迁移到GIT@OSC,因此记录下,以便日后翻看。 1.安装Git 可以到Gi...
    LeoLai阅读 3,757评论 0 6
  • 一、从svn导出项目 使用命令(地址可以是svn开头,也可以是http,https): git svn clone...
    华南虎阅读 1,705评论 0 51
  • 历史原因,我司部分前端项目在svn托管。在重构和迁移并行的情况下,开启了svn项目迁移git的操作。目前已迁移完成...
    kyle背背要转运阅读 1,008评论 0 3
  • Git 基础 基本原理 客户端并不是只提取最新版本的文件快照,而是把代码仓库完整的镜像下来。这样一来,任何一处协同...
    __silhouette阅读 15,324评论 5 147
  • 在工作中如何运用信任透镜 一是表达温暖。通常赞扬别人,乐于助人,并且对观察者的想法和感受表现出兴趣。可以采用以下几...
    墨熙阅读 360评论 0 4
  • 每日一诗: 画堂春•饮水词 纳兰容若 一生一代一双人,争教两处销魂。相思相望不相亲,为谁春? 浆向蓝桥易乞,药成...
    王爷万安阅读 112评论 0 2
  • 生成密钥对 ssh-keygen输入上面的指令以后一路回车即可,你会发现在用户根目录下多了.ssh目录,进去看一下...
    cherubic_c阅读 918评论 0 0
  • 最近两天天气很糟糕,雾霾非常严重。而唯一的解决方法可能就是等风来。相反,我的心情却没有那么糟糕,这源于近一个月来跑...
    亦书亦影阅读 183评论 0 0