13.1 多進(jìn)程
要讓Python程序?qū)崿F(xiàn)多進(jìn)程(multiprocessing),我們先了解操作系統(tǒng)的相關(guān)知識。
Unix/Linux操作系統(tǒng)提供了一個fork()
系統(tǒng)調(diào)用,它非常特殊。普通的函數(shù)調(diào)用,調(diào)用一次,返回一次,但是fork()
調(diào)用一次,返回兩次,因為操作系統(tǒng)自動把當(dāng)前進(jìn)程(稱為父進(jìn)程)復(fù)制了一份(稱為子進(jìn)程),然后,分別在父進(jìn)程和子進(jìn)程內(nèi)返回。
子進(jìn)程永遠(yuǎn)返回0
,而父進(jìn)程返回子進(jìn)程的ID。這樣做的理由是,一個父進(jìn)程可以fork出很多子進(jìn)程,所以,父進(jìn)程要記下每個子進(jìn)程的ID,而子進(jìn)程只需要調(diào)用getppid()
就可以拿到父進(jìn)程的ID。
Python的os
模塊封裝了常見的系統(tǒng)調(diào)用,其中就包括fork
,可以在Python程序中輕松創(chuàng)建子進(jìn)程:
運(yùn)行結(jié)果如下:
由于Windows沒有fork
調(diào)用,上面的代碼在Windows上無法運(yùn)行。而Mac系統(tǒng)是基于BSD(Unix的一種)內(nèi)核,所以,在Mac下運(yùn)行是沒有問題的,推薦大家用Mac學(xué)Python!
有了fork
調(diào)用,一個進(jìn)程在接到新任務(wù)時就可以復(fù)制出一個子進(jìn)程來處理新任務(wù),常見的Apache服務(wù)器就是由父進(jìn)程監(jiān)聽端口,每當(dāng)有新的http請求時,就fork出子進(jìn)程來處理新的http請求。
multiprocessing
如果你打算編寫多進(jìn)程的服務(wù)程序,Unix/Linux無疑是正確的選擇。由于Windows沒有fork
調(diào)用,難道在Windows上無法用Python編寫多進(jìn)程的程序?
由于Python是跨平臺的,自然也應(yīng)該提供一個跨平臺的多進(jìn)程支持。multiprocessing
模塊就是跨平臺版本的多進(jìn)程模塊。
multiprocessing
模塊提供了一個Process
類來代表一個進(jìn)程對象,下面的例子演示了啟動一個子進(jìn)程并等待其結(jié)束:
執(zhí)行結(jié)果如下:
創(chuàng)建子進(jìn)程時,只需要傳入一個執(zhí)行函數(shù)和函數(shù)的參數(shù),創(chuàng)建一個Process
實例,用start()
方法啟動,這樣創(chuàng)建進(jìn)程比fork()
還要簡單。
join()
方法可以等待子進(jìn)程結(jié)束后再繼續(xù)往下運(yùn)行,通常用于進(jìn)程間的同步。
Pool
如果要啟動大量的子進(jìn)程,可以用進(jìn)程池的方式批量創(chuàng)建子進(jìn)程:
執(zhí)行結(jié)果如下:
代碼解讀:
對Pool
對象調(diào)用join()
方法會等待所有子進(jìn)程執(zhí)行完畢,調(diào)用join()
之前必須先調(diào)用close()
,調(diào)用close()
之后就不能繼續(xù)添加新的Process
了。
請注意輸出的結(jié)果,task?0
,1
,2
,3
是立刻執(zhí)行的,而task?4
要等待前面某個task完成后才執(zhí)行,這是因為Pool
的默認(rèn)大小在我的電腦上是4,因此,最多同時執(zhí)行4個進(jìn)程。這是Pool
有意設(shè)計的限制,并不是操作系統(tǒng)的限制。如果改成:
就可以同時跑5個進(jìn)程。
由于Pool
的默認(rèn)大小是CPU的核數(shù),如果你不幸擁有8核CPU,你要提交至少9個子進(jìn)程才能看到上面的等待效果。
子進(jìn)程
很多時候,子進(jìn)程并不是自身,而是一個外部進(jìn)程。我們創(chuàng)建了子進(jìn)程后,還需要控制子進(jìn)程的輸入和輸出。
subprocess
模塊可以讓我們非常方便地啟動一個子進(jìn)程,然后控制其輸入和輸出。
下面的例子演示了如何在Python代碼中運(yùn)行命令nslookup www.python.org
,這和命令行直接運(yùn)行的效果是一樣的:
運(yùn)行結(jié)果:
如果子進(jìn)程還需要輸入,則可以通過communicate()
方法輸入:
上面的代碼相當(dāng)于在命令行執(zhí)行命令nslookup
,然后手動輸入:
運(yùn)行結(jié)果如下:
進(jìn)程間通信
Process
之間肯定是需要通信的,操作系統(tǒng)提供了很多機(jī)制來實現(xiàn)進(jìn)程間的通信。Python的multiprocessing
模塊包裝了底層的機(jī)制,提供了Queue
、Pipes
等多種方式來交換數(shù)據(jù)。
我們以Queue
為例,在父進(jìn)程中創(chuàng)建兩個子進(jìn)程,一個往Queue
里寫數(shù)據(jù),一個從Queue
里讀數(shù)據(jù):
運(yùn)行結(jié)果如下:
在Unix/Linux下,multiprocessing
模塊封裝了fork()
調(diào)用,使我們不需要關(guān)注fork()
的細(xì)節(jié)。由于Windows沒有fork
調(diào)用,因此,multiprocessing
需要“模擬”出fork
的效果,父進(jìn)程所有Python對象都必須通過pickle序列化再傳到子進(jìn)程去,所以,如果multiprocessing
在Windows下調(diào)用失敗了,要先考慮是不是pickle失敗了。
小結(jié)
在Unix/Linux下,可以使用fork()
調(diào)用實現(xiàn)多進(jìn)程。
要實現(xiàn)跨平臺的多進(jìn)程,可以使用multiprocessing
模塊。
進(jìn)程間通信是通過Queue
、Pipes
等實現(xiàn)的。