如何实现一个 Git Diff 解析器

技术文章 来源:淘宝前端团队 发布:2017-05-19 浏览:335

摘要:代码审阅中一个重要功能是对两个 commit 进行 diff 并展示到页面中,这篇文章将尝试总结其实现过程。

代码审阅中一个重要功能是对两个 commit 进行 diff 并展示到页面中,这篇文章将尝试总结其实现过程。

解析 Git Diff

想要展示 diff,首先需要将 Git 提供的 diff 格式解析成结构化数据(比如:JSON)。

基本格式

一个基本的 Git Diff 格式如下:

  1. diff --git a/f1 b/f1

  2. index 6f8a38c..449b072 100644

  3. --- a/f1

  4. +++ b/f1

  5. @@ -1,7 +1,7 @@

  6. 1

  7. 2

  8. 3

  9. -a

  10. +b

  11. 5

  12. 6

  13. 7

第一行是 Git Diff 的 header,进行比较的是 a 版本的 f1(变动前)和 b 版本的 f1(变动后)。

第二行是两个版本的 hash 值以及文件模式(100644 表示是文本文件)。

第三、四行表示进行比较的两个文件, --- 表示变动前的版本, +++ 表示变动后的版本。

第五行是一个 thunk header(可能会有多个),提供变动的”上下文“(context), -1,7表示接下来展示变动前文件第一至第七行, +1,7 表示接下来展示变动后文件第一至第七行。

接下来的几行就是具体的变动内容。它将两个文件的上下文合并显示在一起,每一行前面是一个标志位, ''(空)表示无变化(是一个上下文行)、 - 表示变动前文件删除的行、 + 表示变动后文件新增的行。可以看出此次变动,文件 f1 的第 4 行内容从 a 变为了 b。

扩展 header

在第一行 header 之后有可能包含如下的几种扩展 header:

  1. old mode <mode>

  2. new mode <mode>

  3. deleted file mode <mode>

  4. new file mode <mode>

  5. copy from <path>

  6. copy to <path>

  7. rename from <path>

  8. rename to <path>

  9. similarity index <number>

  10. dissimilarity index <number>

  11. index <hash>..<hash> <mode>

新增、删除、复制、重命名

新增、删除、复制、重命名文件的 Git Diff 格式有些不同,解析时需要特别注意。

新增:

  1. diff --git a/file b/file

  2. new file mode 100644

  3. index 0000000..53bffd7

  4. --- /dev/null

  5. +++ b/file

删除:

  1. diff --git a/file b/file

  2. deleted file mode 100644

  3. index 53bffd7..0000000

  4. --- a/file

  5. +++原    文:淘宝前端团队
    作    者:栖邀

免责声明:

  1. SDK.cn遵循行业规范,所有转载文章均征得作者同意授权并明确标注来源和链接。
  2. 我们十分尊重原创作者的付出,本站禁止二次转载如需转载请与原作者取得联系。
  3. 转载SDK.cn的原创文章需注明文章作者、链接和"来源:SDK.cn"并保留文章及标题完整性未经作者同意不得擅自修改。
  4. 作者投稿可能会经SDK.cn适当编辑修改或补充。