Sikuli 介紹
Sikuli 曾因是由在麻省理工學院的台灣學生所開發,且其可用圖像編寫程式的特色而名噪一時,Sikuli 後來被轉至克羅拉多大學,最後將它釋放出來,現由Rainmen維護,並且持續開發v2版本,現 Sikulix 的官方資訊網站如下:Sikuli 可在Windows、Mac、某些Linux / Unix、VNC、甚至是 Android 下運行,使用OpenCV提供的圖像識別功能,來識別畫面上特定圖像,並編寫程式進行特定操作,除此之外其還有 OCR 的功能,提供在指定圖像中,進行文字識別的功能,此功能由 Tesseract支持,不過其中文辦識能力不佳。但以上功能讓 Sikuli 在我們可以在無法改動程式或網站上執行,這非常方便。
Sikuli 採用 Python 2.7版語法,其基底事實上是 Jython支持,也就是說 Sikuli 最底層事實上是 Java,因此其也支援了 Ruby (由JRuby支持)及 JavaScript(由 Java Scripting Engine 支持),另也支援 RobotFramework 腳本執行,一般來說,Sikuli 可用在以下用途:
- 自動測試:測試所寫的網站或程式,可否正常且穩定的執行,這多半為程式或網站開發時所用,先前曾因網站需大量上傳圖像,為測試網站在大量上傳時的穩定性,用 SikuliX 同時用多台電腦操作上傳網站,測試穩定性。
- 玩遊戲:也就是常說的開外掛,掛機自動執行。
- 重複輸入或操作的應用程式或網頁:這也就是最近挺流行的 robotic process automation (RPA) ,在使用情境上,使用在對網站或應用程式無法修改為適用目前工作,或修改成本很高的情況下,例如: 網站需要輸入大量資料,且無提供整筆匯入功能,也無修改網站權限或能力時,這時可用 Sikuli 模擬人工操作的方式,將資料輸入。也可以用於線上搶票、搶訂閱、搶選課等用途(這有點偏了)。
Sikuli 安裝與執行
Sikuli 的安裝在這提目前這常用到的環境 WIndow 下的安裝,前面有說到 Sikuli 最底層是 Java ,所最開始要確認目前所用的 WIndow 系統下有無安裝 Java ,且因現 Oracle 有修改了Java 的授權,所以現在可能用 OpenJDK 會較好一點,再來就是要安裝 Jython ,不過不是去 Jython 官網下載安裝,而是要去下載 SikuliX 下載頁所附下列 Jython 解釋器,並與 SIkuliX 的 Jar放在同一目錄下,就如同我在在 WIN 10 下執行 SikuliX 2.0.X 版所說明的一樣,執行時在命令列模式下,於放置 SikuliX Jar 檔目錄下鍵入如下指令:
java -jar sikulix-2.0.X.jar
執行成功畫面如下:
Sikuli 的操作
在 Sikuli 最基本的函式是 find,是用來尋找在螢幕上我們所指定的圖形,舉個例子,假設我們現在想要開啟我的電腦,可以鍵入如下畫面語法:
其中我的電腦圖示,只要選左上螢幕截圖功能即可截取,當用 find 找到圖形後,我們可用dobuleClick 來模擬連按兩滑鼠左鍵的動作,鍵入上面程式碼後,按右上執行圖示,即可看到執行結果,但因執行速度太快,我們可能會看不清滑鼠的動作,這時可用慢動作執行方式來看看執行的過程。
另外截圖的部分也可做進一步的設定,只要滑鼠擊點圖示二下,即可進入設定畫面,畫面如下,第一畫面為截圖所放的路徑及檔名。
第二個畫面為顯示,所截的圖與現在螢幕畫面比對時,是否可正確找到我們所要的截圖,如下圖所示,紅色框表示所找到的截圖位置,由下圖來看有找到正確的位置,畫面下方可設定辨識度,預設為 0.7(70%),如果辦識的準確度可拉高設定值,但拉高設定值,也會造成失敗率增加,且就經驗來說,如果70%辨識度無法捉到正確的截圖的話,那就表示你所選的截圖是辦識度不夠高,不夠獨特,需要重新詢找截圖。
第三個畫面可讓我們設定找到截圖後,滑鼠焦點偏移的位置,Sikuli 預設找到截圖後滑鼠的焦點為截圖的正中心,但有時因為我們想要取的位置,辦識度不高,所以只好捉附近辦識度高的截圖,在捉到後設定偏移到我們要取的位置,在這畫面我們可以直接用滑鼠點我們所要的偏移位置,下方會顯示偏移量,在本例我們取偏移到資源回收桶的位置,取好後按下方 Apply 鍵即可設定完成。
Sikuli 其他可用函式,請參照 Sikuli 文檔 以及 Python 。
Sikuli 使用技巧
由前面的介紹我們可知道 ,Sikuli 以圖形辦識為核心,以Python(事實上為 Jython) 語法撰寫程式,因此在使用上有下面的注意事項:
- 截圖的選擇並須符合下列幾個要點:
- 獨特性要高、要夠明顯(對比高),要為螢幕上唯一的圖示,例如在 Window 上資源回收桶的圖示,其多半為桌面上唯一的圖示,且夠明顯。像有些網頁其按鍵的圖示和背景一樣為淺灰色,其按鍵的框又為透明,這種狀況就很容易造成辦識度低,這時可能就要採取前一節所講的方法,取其他明顯的截圖,在偏移過去。
- 尺寸最好固定不變,雖然 Sikuli 辦識度設定為 70%,已有緩衝,但像是突然改變畫面解析度,或在看網頁時放大縮小畫面,皆會造成截圖尺寸的變化而造成失敗,不過通常用慣的畫面解析度不常會改變,網頁縮放設定在100%就可避免上述問題。
- 要不被其他程式遮蓋,像前面所提的資源回收桶圖示,就存在易被化程式遮蓋,這種情行可改用不易被其他程式遮蓋的圖示,在 Window 上工作列的圖示就不易被其他程式遮蓋,例如 Window 鍵。另一種作法是在執行辦識前把所有視窗縮到最小或關閉,避免遮到圖示。
- 採用偏移的方式時,所選的截圖和我們所要的位置偏移量需要固定不變,且偏移量不要太大,否則失敗率會增加,通常就近選擇載圖是較好的選擇。
- 不要所有的步驟都用截圖方式來執行,前面提到,Sikuli 辦識度設定為70%,還是有一定的失敗率,建議用 Sikuli 取得所要執行程式或網頁的焦點後,在程式或網頁執行用模擬鍵盤輸入的方式處理,像是用 type(key.TAB) 模擬鍵盤 TAB 鍵切換輸入欄位焦點,用 key("input message") 或 paste("要輸入的訊息"),來模擬輸入訊息,以提高正確率。
- 雖然 Python 支援 Unicode ,但在 WIndow 上中文處理的問題,分兩個層面說明。
- 如果是要模疑鍵盤輸入,要輸入中文時,不能使用type(), 而需使用paste(), 且中文必需使用unicode("中文","utf8")做轉換,整個函式會變為 paste(unicode("中文","utf8")),即可正常使用。
- 如果在程式中要讀入含中文的 csv 檔時,在Windows需先用 Notepad++ 將 csv 檔的編碼轉為 UTF-8 ,讀入後在用 unicode 函式輸出,以下為範例程式碼。
import codecs
data = open("test.csv").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:];
for row in data:
paste(unicode(row[1],"utf-8"));
- Sikuli 雖用採用 Python 2.7 語法,但其實是用 Jython,故還是跟 Python 有些許不同,故如要用 Python 套件需事先測試,但就以正常來說,直接用 Python(Jython)預設的套件是較好的選擇。
Sikuli 的限制
Sikuli 的限制基本上就是由其賣點圖形辦識所引起的,在前面 Sikuli 使用技巧所提截圖尺寸的變化易而造成失敗,在單台電腦上可以用固定螢幕解析度設定來達成,但如要移植到其他台電腦上執行,就常常要在每一台上重新截圖,才可正常執行,這就造成了,作業上額外的負擔,也無法提供與一般人使用,我相信這也是 Sikuli 無法普及的一個主要原因,其應用範圍被限制於自動測試或單機 RPA。
另外新版的 Sikuli 雖然提供 OCR (文字辦識)的功能,不過其中文辦識能力不佳,仍有待進一步的改進。
結語
上面簡單介紹 Sikuli ,雖然其使用上有諸多限制,但在辦公室自動化上仍有用途,可以將重複性的作業自動化,節省工作的時間,如對 Sikuli 的應用有興趣,除可參見上面所提的官方網站外,也可參考這篇文章,做更進一步的暸解。