在bash或脚本中，如何并行执行命令或任务（命令行、parallel、make）

本文介绍: 最近要批量解压归档文件和压缩包，所以就想能不能并行执行这些工作。因为tar自身不支持并行解压，但是像make却可以支持生成一些文件，所以我才有了这种想法。方法有两种，第一种不用安装任何软件或工具，直接bash或其他 Shell 中就可以使用；第二种需要安装 GNU parallel 这个工具来进行。二者在使用上都很简单，但是后者更人性化（应该可以用这个词来形容）一些。最后还介绍了一种比较奇特的方法，是无意中看到的，虽然没啥用但是有点意思。

最近要批量解压归档文件和压缩包，所以就想能不能并行执行这些工作。因为tar自身不支持并行解压，但是像make却可以支持生成一些文件，所以我才有了这种想法。

方法有两种，第一种不用安装任何软件或工具，直接bash或其他 Shell 中就可以使用；第二种需要安装 GNU parallel 这个工具来进行。二者在使用上都很简单，但是后者更人性化（应该可以用这个词来形容）一些。最后还介绍了一种比较奇特的方法，是无意中看到的，虽然没啥用但是有点意思。

直接在命令最后使用`&`

这个方法需要在命令最后使用&，也就是将这个命令放入后台执行。如下是并行解压提取当前文件夹下所有的归档文件的方法：

for tarfile in *.tar; do 
	tar xvf $tarfile &
done;

可以看到这个方法可以说是非常简单了，但是最大的问题就是它会给每个归档文件创建一个进程，并不会自动根据设备的线程数而创建合适数量的进程（tar由于需要大量 I/O，所以也无法维持高 CPU 使用率），如下：

请添加图片描述

如果是小数量的解压提取可能没什么问题，但是如果特别大数量的归档文件解压提取，那么可能会造成调度损耗过大。如果需要根据实际线程数量生成，那么就复杂多了。

这个工具很好用，不光可以设置最大并行任务数量，还可以通过--bar选项显示当前总进度如何。使用方法如下（还是解压提取一堆归档文件）：

parallel tar xvf ::: *.tar

这种方法但是像time，将需要并行化的命令放到parallel后面即可，而不同命令之间不同的地方（参数部分）使用:::标注出来。

可以看到一开始只生成了线程数量的进程，也就是8个进程。如果想手动设定最大并行进程数量，那么使用-j 数量即可（和make的-j选项一样，有没有空格都行）。

使用{}在下一个程序的参数部分，作为即将传递的参数字符串的占位符，而且parallel也要使用在下一个程序前面。需要注意的是：传递的参数是分散开传递的。比如说一个多行字符串"1234n1234n1234"会被传递成三个单行字符串"1234","1234","1234"。

cat abc.txt ｜ parallel wget {}

但是面对比如说使用grep批量查询abc.txt中含有abc的行有哪些，如果还使用上面这样的传递，由于是分散开传递的，那么这个单独的字符串会被当作文件名：

cat abc.txt ｜ parallel grep abc {}

$ cat abc.txt | parallel grep abc {}
grep: bfjksa: No such file or directory
grep: afhjha,fsj: No such file or directory
grep: abcshjagf: No such file or directory
grep: a;hfahabc: No such file or directory
grep: ahsfhmabc: No such file or directory

比如说官方有个例子是查找当前目录下所有文件中含有某一字符串的行，这里我查找main这个字符串：

$ time find . -type f | parallel grep -H -n main {}
./mem_disk_speedtest_in_C/.git/config:10:[branch "main"]
...

real    0m26.651s
user    0m3.351s
sys     0m1.030s

而不使用 GNU Parallel 的命令为（并不是直接删除parallel部分就行了，需要做出一些调整）：

$ time grep -H -n main $(find . -type f)
./mem_disk_speedtest_in_C/.git/config:10:[branch "main"]
...

real    0m22.247s
user    0m3.204s
sys     0m0.809s

实际测试上，直接在命令最后使用&要比使用GNU parallel慢一些（应该就是因为调度损耗了一部份性能），如下：

方法	运行时间（秒）
串行	237.9
`&`	152.1
GNU parallel	121.3

正如开头所说，make是可以并行生成一些文件，而且可以通过-j选项设置最大并行任务数量。我们也可以利用这点来解压提取文件，但这并不是一个正经的办法，仅限于开拓眼界，因为有点“脱裤子放屁”的感觉（因为生成Makefile中的target部分需要使用CMake或者Bash来自动生成），正经使用的时候还是不要使用这种方法。

这个方法是我在 Running commands in parallel with a limit of simultaneous number of commands – superuser 中看到的，进行了一些尝试，可以说除了奇特毫无优点（通用性比不过&，易用性比不过 GNU Parallel），所以不推荐使用。