Luận án Một số cải tiến về ràng buộc xâu trong sinh dữ liệu kiểm thử tự động cho thực thi tượng trưng

MỤC LỤC.i

LỜI CAM ĐOAN . iii

LỜI CẢM ƠN .iv

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT .v

DANH MỤC BẢNG BIỂU .vi

DANH MỤC HÌNH VẼ. vii

MỞ ĐẦU.1

CHưƠNG 1. TỔNG QUAN VỀ KIỂM THỬ PHẦN MỀM VÀ THỰC THI BIỂU

TRưNG.5

1.1. Kiểm thử phần mềm . 5

1.1.1. Các khái niệm cơ bản.5

1.1.2 Các phương pháp kiểm thử.10

1.2. Kỹ thuật kiểm thử hộp trắng dòng điều khiển. 12

1.2.1. Kiểm thử hộp trắng dòng điều khiển theo hướng động.12

1.2.2 Kiểm thử hộp trắng dòng điều khiển theo hướng tĩnh.14

1.2.3. Các tiêu chí phủ kiểm thử.15

1.2.4. Đồ thị dòng điều khiển .16

1.2.5. Đường kiểm thử.17

1.3. So sánh kiểm thử hộp trắng dòng điều khiển theo hướng tĩnh và động. 17

1.4. Thách thức trong kiểm thử phần mềm . 18

1.5. Thực thi biểu trưng. 19

1.5.1. Tổng quan về thực thi biểu trưng.19

1.5.2. Thực thi biểu trưng tĩnh .24

1.5.3. Thực thi biểu trưng động .27

1.5.4 Thực thi Concolic .33

1.5.5. Thực thi biểu trưng với các lời gọi phương thức.37

1.6.6. Ràng buộc xâu và vai trò của giải ràng buộc xâu.40

1.6. Kết luận chương 1 . 42

CHưƠNG 2. THỰC THI BIỂU TRưNG VÀ MÔ HÌNH HÓA RÀNG BUỘC.44

2.1. Đặt vấn đề. 44

2.1.1. Bùng nổ đường đi .44

105 trang | Chia sẻ: honganh20 | Ngày: 04/03/2022 | Lượt xem: 244 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Luận án Một số cải tiến về ràng buộc xâu trong sinh dữ liệu kiểm thử tự động cho thực thi tượng trưng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

thành một dạng ngôn ngữ có cấu trúc đơn giản hơn và thêm vào các phần mã hỗ trợ việc thực thi biểu trƣng với ngôn ngữ trung gian này. Dạng ngôn ngữ trung gian thƣờng đƣợc sử dụng cho ngôn ngữ Java đó là Jimple [40]. Bảng 1.3 dƣới minh họa việc mã nguồn Java đƣợc chuyển thành dạng mã Jimple. Bảng 1.3. Minh họa việc chuyển đổi từ mã nguồn Java sang mã Jimple Mã nguồn Java Mã Jimple void call(int x){// bắt đầu hàm begin x = input; if (x > 0) { x = 1; } else { x = -1; } y = x + y; if (x <= 0) goto L1; x = 1; if (true) goto L2; L1: x = -1; L2: y = x + y; switch (c) { case 1: x = x + 1; break; case 2: x = x - 1; break; default: if (c != 1) goto L1; x = x + 1; if (true) goto L3; L1: if (c != 2) goto L2; x = x - 1; if (true) goto L3; L2: x =0; L3: x = x + c; 36 x = 0; break; } x = x + c; } // kết thúc hàm End Việc chuyển đổi mã Java sang mã có cấu trúc đơn giản hơn giúp quá trình thêm các phần mã hỗ trợ việc thực thi biểu trƣng dễ dàng hơn. Tuy nhiên, các công cụ nhƣ thế cần sử dụng các cộng cụ và các nền tảng khác để giúp chuyển lại các mã trung gian đó về dạng Java chuẩn. Giả sử với mã Jimple ở trên sau khi đã thêm vào các phần mã hỗ trợ thực thi biểu trƣng thì công cụ Soot [40] đƣợc sử dụng để chuyển chúng về dạng Java bytcode chuẩn. Lưu trữ giá trị biểu trưng Với các hệ thống kiểm thử mà cài đặt kỹ thuật thực thi biểu trƣng ở trên thì cần có các cấu trúc dữ liệu để lƣu trữ các giá trị biểu trƣng kết hợp với các biến và tham số đầu vào trong quá trình thực thi biểu trƣng một chƣơng trình. Nếu kiểu của biến x không phải là kiểu tham chiếu thì giá trị biểu trƣng của x biểu thị bởi S(x). S‘= S[x → s] biểu thị cho ánh xạ từ biến x tới giá trị biểu trƣng s của nó đƣợc bổ sung vào S, từ đó S‘(x)=s. S‘=S-x đƣợc sử dụng để biểu thị rằng ánh xạ giữa biến x và giá trị biểu trƣng đã đƣợc gỡ bỏ. S‘(x) trong trƣờng hợp này trả về giá trị cụ thể cho x mà không phải là giá trị biểu trƣng. R(o) biểu thị cho giá trị biểu trƣng của đối tƣợng o. R là một ánh xạ giữa đối tƣợng và giá trị biểu trƣng của nó tƣơng tự nhƣ S. Ngoài ánh xạ S và R một ánh xạ M cũng đƣợc sử dụng. Các ánh xạ S, R, M đƣợc cài đặt bằng cấu trúc dữ liệu dạng Map dùng để lƣu trữ các cặp giá trị key→value. Địa chỉ bộ nhớ (memory address) là các định danh duy nhất sử dụng nhƣ key mà các giá trị biểu trƣng có thể ánh xạ tới. Tuy nhiên, trong Java ta không thể truy cập tới các con trỏ và địa chỉ bộ nhớ. Tên của biến đƣợc sử dụng là key trong trƣờng hợp kiểu của biến đó không phải là kiểu tham chiếu. Tuy nhiên tên biến thƣờng không phải là duy nhất do đó các ánh xạ đƣợc cài đặt bằng việc thêm một biến biểu trƣng mới cho mỗi biến cục bộ hoặc mỗi trƣờng của đối tƣợng trong quá trình sửa đổi mã nguồn của chƣơng trình đƣợc kiểm thử. Bằng kỹ thuật phân tích dựa trên kiểu [41] có thể xác định các câu lệnh và các 37 biến liên quan tới các tham số đầu vào để có thể thêm vào phần mã cho chúng để hỗ trợ việc thực thi biểu trƣng. Các giá trị biểu trƣng đƣợc kết hợp với các biến chứ không phải với giá trị của các biến. Trong Java không thể có hai biến có kiểu không phải là kiểu tham chiếu cùng trỏ tới một địa chỉ bộ nhớ. Với một số đối tƣợng, có thể có nhiều tham chiếu (reference) tới cùng một đối tƣợng. Tuy nhiên với đối tƣợng ta cũng có thể dùng các tham chiếu là key. Vì thế ánh xạ R đƣợc cài đặt bằng một cấu trúc dữ liệu dạng Map mà ánh xạ một tham chiếu tới một giá trị biểu trƣng. Khi một giá trị biểu trƣng của một đối tƣợng đƣợc yêu cầu, một tham chiếu tới đối tƣợng đƣợc tìm kiếm trong R và giá trị biểu trƣng ánh xạ tới tham chiếu đƣợc trả về nếu tham chiếu đƣợc tìm thấy. 1.5.5. Thực thi biểu trưng với các lời gọi phương thức Trong Java, tất cả các đối số đƣa tới phuơng thức bởi giá trị. Điều này có nghĩa rằng khi phƣơng thức đƣợc gọi với các đối số có giá trị biểu trƣng kết hợp với chúng thì các giá trị biểu trƣng đó phải đƣợc kết hợp với các biến mới trong phƣơng thức đƣợc gọi. Khi một phƣơng thức đƣợc gọi, tất cả các giá trị biểu trƣng của các đối số đƣợc đẩy vào một ngăn xếp. Và các giá trị của chúng đƣợc đọc từ stack tới biến biểu trƣng tƣơng ứng tại thời điểm phƣơng thức đƣợc gọi bắt đầu việc thực thi. Do khi một phƣơng thức đƣợc thực thi biểu trƣng thì kết quả thực thi đƣợc trả về nhiều lần do các phƣơng thức đƣợc thực thi nhiều lần theo các đƣờng đi khác nhau. Vì vậy một ngăn xếp đƣợc sử dụng để lƣu các giá trị trả về của một phƣơng thức đƣợc gọi. Tuy nhiên, với các lời gọi phƣơng thức thì mã nguồn của phƣơng thức đƣợc gọi cần đƣợc sửa đổi để cho phép thực thi tƣơng trƣng thì phƣơng thức đó mới có thể thực thi biểu trƣng với các giá trị biểu trƣng đƣợc kết hợp với các đối số truyền vào phƣơng thức. Vấn đề với các lời gọi phƣơng thức đó là các phƣơng thức đƣợc gọi thƣờng không cho phép thực thi biểu trƣng nhƣ việc gọi các thƣ viện trong Java, các phƣơng thức mà mã nguồn của nó không sẵn có để ta có thể thêm vào các phần mã cho phép thực thi biểu trƣng phƣơng thức đó. Đây chính là hạn chế của phƣơng pháp sửa đổi mã nguồn chƣơng trình để cho phép thực thi biểu trƣng chƣơng trình đó. Tuy vậy, hiện nay Sun Microsystems đã công bố mã nguồn của nền Java qua dự án OpenJDK [42] do đó việc sửa đổi các thƣ viện chuẩn của Java để hỗ trợ thực thi biểu trƣng là điều có thể thực hiện đƣợc. Một ví dụ đơn giản về thực thi biểu trƣng trên lời gọi phƣơng thức 38 1:struct point {int x,y,z;}; 2: 3:int main(){ 4:struct point p={0,0,0}; 5:int j, k;//symbolic 6: 7: f(&p, k);//skip 8: if(j>0) 9: if (p.y) 10: bug(); 11: else 12: allgood(); 13: return 0; 14: } (a) (b) 15: void f(struct point *p, int k){ 16: if(k%2) 17: p->z++; 18: 19: if(k>0) 20: p->x++; 21: else 22: p->y++; 23 } (c) Hình 1.11. Thực thi biểu trưng trên lời gọi phương thức Hình 1.11(a) cho thấy điểm vào của chƣơng trình (hàm main()), trong khi Hình 1.11 (c) hiển thị mã không thú vị mà ta muốn bỏ qua ( chức năng f). Khi bắt đầu thực hiện băm nhỏ bằng cách thực hiện chính biểu trƣng. Khi một trạng thái đạt đến lệnh gọi hàm f ở dòng 7, chúng ta tạo trạng thái chụp nhanh bằng cách nhân bản trạng thái hiện tại và bỏ qua lệnh gọi hàm. Trạng thái chụp nhanh đƣợc hiển thị bằng đồ họa trong Hình 1.11 (b), trong đó mỗi hình bầu dục màu xám biểu thị trạng thái thực thi biểu trƣng. Với một ảnh chụp nhanh đƣợc tạo, chúng ta tiếp tục thực hiện ở trạng thái hiện tại. Nhƣng từ thời điểm này, chúng ta phải xem xét rằng một số hƣớng dẫn tải có thể phụ thuộc vào các hiệu ứng phụ của hàm bị bỏ qua f, nghĩa là các vị trí bộ nhớ mà f có thể cập nhật. Trong ví dụ này, các hiệu ứng phụ của f là các vị trí bộ nhớ đƣợc trỏ bởi p.z, p.x và p.y, đƣợc cập nhật ở các dòng 17, 20 và 22 tƣơng ứng. Bằng tính toán các khía cạnh của f bằng cách sử dụng phân tích con trỏ 39 tĩnh bảo thủ [43 - 46] trƣớc khi bắt đầu thăm dò biểu trƣng. Thực hiện bỏ qua các hƣớng dẫn đọc từ phía bên của các hàm bị bỏ qua dƣới dạng tải phụ thuộc. Trên một số đƣờng dẫn, thực thi biểu trƣng không gặp phải nhƣ vậy. Ví dụ: đƣờng dẫn đi theo phía bên kia của nhánh ở dòng 8 không truy cập p.x, p.y hay p.z. Vì vậy không cần thực hiện thêm hành động nào trên các đƣờng dẫn đó và việc thăm dò có thể kết thúc chính xác mà không cần thông qua mã của f. Trên thực tế, trong các chƣơng trình thực thƣờng có đƣờng dẫn mà không phụ thuộc vào các hàm bị bỏ qua, và trong trƣờng hợp này thực thi biểu trƣng ngay lập tức hƣởng lợi từ cách tiếp cận của nghiên cứu này. Đƣờng dẫn không có liên quan đƣợc bỏ qua một cách an toàn, do đó làm giảm sự bùng nổ đƣờng dẫn đƣờng. Tuy nhiên, trên các đƣờng dẫn khác thực thi biểu trƣng gặp phải tải phụ thuộc. Điều này xảy ra với ví dụ đã cho trên đƣờng dẫn khám phá phía sau của nhánh ở dòng 8, khi nó tải giá trị của p.y ở dòng 9. Tại thời điểm này, trạng thái hiện tại cần đƣợc treo cho đến khi các đƣờng dẫn có liên quan trong hàm f khám phá, và trở thành một trạng thái phụ thuộc. Để khôi phục một đƣờng dẫn, chúng ta tạo một trạng thái phục hồi mới kế thừa trạng thái ảnh chụp đƣợc tạo trƣớc khi bỏ qua hàm f ở dòng 7 và bắt đầu thực hiện chức năng một cách biểu trƣng. Trong khi thực thi biểu trƣng ở trạng thái phục hồi, nếu thực thi rẽ nhánh, thì cùng một ngã ba đƣợc thực hiện ở trạng thái phụ thuộc. Hơn nữa, khi ta chạy trạng thái khôi phục, mọi lƣu trữ đến vị trí bộ nhớ đƣợc đọc bởi tải phụ thuộc cũng đƣợc thực hiện ở trạng thái phụ thuộc. Ví dụ: nếu việc thực thi biểu trƣng của f cắt ngang qua nhánh khác tại các dòng 21 - 22, thì giá trị của p.y (vị trí bộ nhớ đƣợc trỏ bởi p-> y) cũng đƣợc đặt thành 1 ở trạng thái phụ thuộc. Nếu trạng thái phục hồi trở lại thành công, trạng thái phụ thuộc đƣợc nối lại thành công. Nếu xảy ra lỗi trong khi thực hiện trạng thái khôi phục (ví dụ: truy cập bộ nhớ không hợp lệ hoặc phân chia theo lỗi 0, có thể xảy ra nếu p-> z đƣợc đặt trong dòng 17 đến 4 / p-> y), trạng thái phụ thuộc tƣơng ứng là chấm dứt. Khi thực thi trạng thái khôi phục, không phải tất cả các đƣờng dẫn có thể tƣơng thích với thực thi mà trạng thái phụ thuộc đạt đƣợc. Ví dụ: nếu dòng 8 đƣợc thay đổi từ if (j> 0) thành if (k> 0), thì trạng thái phụ thuộc sẽ có k> 0 trong PC của nó, khiến trạng thái phụ thuộc không tƣơng thích với đƣờng dẫn trong f trong đó k ≤ 0. Một cách để loại bỏ các đƣờng dẫn không tƣơng thích nhƣ vậy là thực thi tất cả các đƣờng dẫn có thể qua hàm f trong quá trình khôi phục và sau đó lọc các đƣờng dẫn 40 không tƣơng thích với trạng thái phụ thuộc. Tuy nhiên, điều này có khả năng sẽ dẫn đến việc bùng nổ đƣờng dẫn thành một con số lớn. 1.6.6. Ràng buộc xâu và vai trò của giải ràng buộc xâu Mấu chốt của thực thi biểu trƣng đó là khả năng giải ràng buộc và xâu dữ liệu là một kiểu dữ liệu cơ bản nó có trong tất cả các ngôn ngữ lập trình hiện đại và việc sử dụng các phép toán trên xâu là thƣờng xuyên đƣợc thực hiện. Trong các lĩnh vực khác nhau nhƣ phân tích phần mềm, kiểm chứng mô hình, cơ sở dữ liệu, bảo mật web, tin sinh học [47 - 52]. Vì lý do trên việc giải các ràng buộc phức tạp trên xâu là cần hiết và có rất nhiều ứng dụng. Các quan hệ đƣợc định nghĩa trên biến xâu kí tự bao gồm: Độ dài xâu, so sánh xâu, các phép nối, kiểm tra xâu con, cắt xâu, so sánh biểu thức chính quy vv.. Thuật ngữ giải ràng buộc xâu (String Constraint Solving)trong luận án đề cập đến việc mô hình hóa, và giải quyết các biểu thức kết hợp liên quan đến ràng buộc xâu, ta có thể xem nhƣ giải ràng buộc xâu nhƣ là phần giao giữa giải ràng buộc và tổ hợp các từ, trong đó ngƣời dùng sẽ đƣa ra một vấn đề với các biến xâu và một bộ giải ràng buộc xâu sẽ tìm ra một giải pháp phù hợp cho vấn đề đó. Từ những năm 2010 việc giải ràng buộc xâu đã có một số các nghiên cứu quan tâm có kết quả nhất định [51, 52] do nó có vai trò chủ đạo trong các lĩnh vực sinh dữ liệu kiểm thử, kiểm chứng mô hình, và bảo mật web. Trong những năm qua có nhiều hƣớng tiếp cận khác nhau đã đƣợc đƣa ra, nhƣng có ba loại chính: Tiếp cận dựa trên lý thuyết về Otomat: phƣơng pháp này sử dụng một Otomat hữu hạn để biểu diễn giá trị của một biến xâu, nó đƣợc dùng để lƣu trữ, xử lý các phép toán trên xâu. Tiếp cận dựa trên từ: Phƣơng pháp này sử dụng hệ thống của so sánh từ với nhau, chúng sử dụng chủ yếu lý thuyết thỏa mãn (SMT) [53] để giải các ràng buộc xâu. Tiếp cận dựa trên phân tách xâu: Nguyên lý là thực hiện phân tách xâu thành các phần tử liền kề tƣơng đƣơng là các kí tự của xâu. Xâu có thể phân rã thành các số nguyên hoặc bitvector Bảng chữ cái hữu hạn là một tập hữu hạn Σ ={a1,a2 . . . , an} với n>1 các kí hiệu cũng đƣợc gọi là kí tự. Một xâu w hay một tự là một dãy hữu hãn các kí tự thuộc 41 bảng chữ cái Σ, kí hiệu |w| biểu diễn cho độ dại của xâu w( trong luận án này không đề cập đến xâu có độ dài vô hạn). Một xâu rỗng đƣợc biểu diễn bởi ký tự ɛ, gọi tập hữu hạn Σ*là tập tất cả các xâu của bảng chữ cái Σ đƣợc định nghĩa đệ quy nhƣ sau: Xâu rỗng: ɛ ∈ Σ* Nếu kí tự a∈ Σ và w∈ Σ* thì thì wa∈ Σ* Ngoài ra không có gì thuộc Σ* Phép nối của hai xâu v,w∈ Σ* đƣợc biểu diễn bởi v.w, trong luận án này phép lặp n lần xâu w đƣợc biểu diễn bởi wn nó có nghĩa là lặp n lần phép nối xâu w, và w0= ɛ và wn=w. wn-1, n>0. Tƣơng tự ta định nghĩa phép nối của hai tập xâu: cho hai tập V,W⊆ Σ*, ta biểu diễn V.W={v.w | v∈ V ,w ∈ W }, phép lặp trên tập W cũng tƣơng tự đƣợc định nghĩa nhƣ sau: W0={ ɛ} và Wn=W.Wn-1 trong đó n>0. Một tập các xâu L ⊆ Σ đƣợc gọi là một ngôn ngữ nếu nó đƣợc đoán nhận bởi một otomat hữu hạn M và đƣợc ký hiệu là L(M). Một biến xâu chỉ có thể nhận các giá trị thuộc Σ* hoặc tƣơng đƣơng với miền giá trị của một ngôn ngữ của Σ*, ta có thể phân loại biến xâu thành ba cấp độ nhƣ sau: Biến xâu không có giới hạn về độ dài: chúng có thể nhận bất kỳ giá trị nào thuộc Σ*. Biến xâu có giới hạn độ dài: giới hạn đƣợc cho bởi một số nguyên λ, λ > 0 và chúng chỉ có thể nhận các giá trị trong khoảng i ={w ∈ Σ ∗ | |w| ≤ λ}. Biến xâu đƣợc cố định độ dài: cho trƣớc một số nguyên λ, λ > 0, chúng chỉ có thể nhận các giá trị trong Σλ = {w ∈ Σ ∗ | |w| = λ}. Ràng buộc xâu: Ràng buộc xâu là một mối quan hệ thông qua ít nhất một biến xâu. VD: phép nối xâu là một bộ ba ràng buộc xâu. Để đơn giản thay vì kí hiệu (x,y,z) ∈. Luận án này sử dụng hàm kí hiệu z=x.y. Trong phần này chúng ta chỉ xem xét đến ràng buộc xâu bao gồm chỉ có xâu hoặc số nguyên dùng để biểu diễn cho độ dài xâu hoặc phép các phép nối lặp, từ các ràng buộc trong Bảng 1.4, các ràng buộc khác có thể đƣợc suy ra. Bảng 1.4. Mô tả ràng buộc xâu Ràng buộc xâu Mô tả x = y, x ≠ y So sánh bằng, so sánh khác x y So sánh thứ tự logic của hai xâu n=|x| So sánh độ dài xâu với một số nguyên n 42 Ràng buộc xâu Mô tả z=x.y, y=x n Phép nối xâu, phép lặp của phép nối xâu y=x -1 Phép đảo ngƣợc xâu y=x[i..j] Lấy về xâu con của xâu x n=find(x,y) n là chỉ số đầu tiên xuất hiện của xâu x trong xâu y y = replace(x, q, q′ ) y có đƣợc bằng cách thay thế lần xuất hiện đầu tiên của q bằng q‘ trong x. y = replaceAll(x, q, q′ ) y có đƣợc bằng cách thay thế tất cả q bằng q‘ trong x n = count(a, x) n là số lần xuất hiện của kí tự a trong x x ∈ L(R) x thuộc ngôn ngữ chính quy đƣợc biểu diễn bởi R x ∈ L(G) x thuộc ngôn ngữ phi ngữ cảnh đƣợc biểu diễn bởi G Ví dụ nhƣ ràng buộc substring(x,y) có nghĩa là xâu x phải là xâu con của xâu y có thể đƣợc định nghĩa tƣơng đƣơng với ràng buộc find(x,y) đƣợc định nghĩa trong [54] cũng có thể tham chiếu tƣơng đƣơng với ràng buộc indexOf(y,x). Thứ tự của các kí tự trong xâu cũng tùy biến, trong một cách tiếp cận giải ràng buộc xâu thứ tự đầu tiên trong xâu đƣợc bắt đầu là 0 nhƣng với một số cách tiếp cận thì nó là 1 khi đó kí tự đầu tiên của xâu lại là x[1] thay vì x[0]. Nói tóm lại mục tiêu của giải ràng buộc xâu nhằm xác định xem có tồn tại các giá trị của các biến xâu có thỏa mãn một biểu thức ràng buộc đã cho hay không và nhiệm vụ này có thể đƣợc giải quyết bởi hai phƣơng pháp là lập trình ràng buộc và lý thuyết thỏa mãn. 1.6. Kết luận chƣơng 1 Chƣơng 1 của luận án đã trình bày các khái niệm nền tảng của nghiên cứu bao gồm các kỹ thuật kiểm thử phần mềm, các kỹ thuật cơ bản sinh dữ liệu kiểm thử tự động từ mô hình đang quan tâm. Đồng thời cũng đã đánh giá so sánh các kỹ thuật kiểm thử hộp trắng theo hƣớng động và tĩnh, chỉ ra các thách thức về kiểm thử phần mềm chƣa đƣợc giải quyết. Trong đó kỹ thuật thực thi biểu trƣng đang là vấn đề có triển vọng nghiên cứu. Các kiến thức nền tảng và tổng quan về kỹ thuật thực thi biểu 43 trƣng cũng nhƣ các thách thức, các vấn đề chƣa đƣợc giải quyết cũng đƣợc trình bày trong chƣơng này. Các nội dung liên quan đến giải ràng buộc xâu ứng dụng trong sinh tự động các ca kiểm thử sẽ đƣợc trình bày trong các chƣơng tiếp theo của luận án. 44 CHƢƠNG 2. THỰC THI BIỂU TRƢNG VÀ MÔ HÌNH HÓA RÀNG BUỘC Trong chƣơng này, các khó khăn của kỹ thực thực biểu trƣng sẽ đƣợc phân tích đánh giá. Đồng thời, các công cụ mở rộng, cài đặt kỹ thuật thực thi biểu trƣng mà nó sẽ đƣợc dùng để thực hiện cải tiến kỹ thuật mô hình hóa ràng buộc kiểu xâu cũng đƣợc giới thiệu. Ngoài ra, phƣơng pháp mô hình hóa phục vụ cho cài đặt, đánh giá giải ràng buộc xâu và ràng buộc hỗn hợp cũng đƣợc trình bày trong chƣơng này. Nội dung chƣơng này đƣợc thể hiện trong các kết quả công bố [CT1], [CT2], [CT3], CT[5] của nghiên cứu sinh. 2.1. Đặt vấn đề Trong phần này, những khó khăn trong quá trình áp dụng thực thi biểu trƣng đƣợc thảo luận và một vài giải pháp cho việc giải quyết các thách thức đặt ra đƣợc trình bày. 2.1.1. Bùng nổ đường đi Một trong những thách thức quan trọng của thực thi biểu trƣng là nó sẽ sinh ra một số lƣợng lớn các đƣờng thực thi mặc dù chƣơng trình là nhỏ và thƣờng là hàm mũ trong số các câu lệnh rẽ nhánh tĩnh của mã nguồn. Kết quả là trong một khoảng thời gian định trƣớc nó sẽ quyết định khám phá con đƣờng đầu tiên sao cho phù hợp nhất. Trƣớc hết, lƣu ý rằng thực thi biểu trƣng đã ngầm lọc ra tất cả các đƣờng thực thi không phụ thuộc vào các biến biểu trƣng đầu vào và những đƣờng dẫn không khả thi trong quá trình giải các ràng buộc. Mặc dù nhƣ vậy, sự bùng nổ đƣờng dẫn vẫn là một trong những thách thức lớn nhất đối với thực thi biểu trƣng. Hiện nay có hai cách tiếp cận chính để giải quyết vấn đề này là ƣu tiên tìm kiếm kinh nghiệm và sử dụng kỹ thuật phân tích tính đúng đắn của chƣơng trình trong quá trình phân tích đƣợc trình bày dƣới đây. Tìm kiếm kinh nghiệm Cơ chế quan đƣợc sử dụng trong các công cụ thực thi biểu trƣng để ƣu tiên đƣờng dẫn khai phá là sử dụng tìm kiếm kinh nghiệm. Hầu hết Heuristic đặt trọng tâm vào vấn đề bao phủ dòng lệnh và bao phủ rẽ nhánh. Nhƣng chúng cũng có thể đƣợc sử dụng để tối ƣu hóa các tiêu chí mong muốn khác. Một cách tiếp cận đặc biệt hiệu quả là sử dụng đồ thị luồng điều khiển. Để điều hƣớng đƣờng gần nhất từ những đƣờng dẫn đã khám phá [17, 55], một cách tƣơng tự trong EXE [17] là ƣu tiên những câu lệnh đã thực thi mà có số lần chạy là ít nhất. Một 45 ví dụ khác với tìm kiếm Heuristic dựa trên khám phá ngẫu nhiên cũng đã đƣợc chứng minh tính hiệu quả [17, 55]. Ý tƣởng chính của phƣơng pháp này là khi bắt đầu chƣơng trình với mỗi câu lệnh rẽ nhánh của thực thi biểu trƣng trong các nhánh khả thi nó sẽ chọn ngẫu nhiên một nhánh để khám phá. Một tiếp cận thành công khác là xen vào kiểm thử ngẫu nhiên và khám phá biểu trƣng. Phƣơng pháp này kết hợp khả năng của kiểm thử ngẫu nhiên để nhanh chóng đến những trạng thái thực thi sâu của chƣơng trình. Với sức mạnh của thực thi biểu trƣng việc kết hợp đƣợc khai phá triệt để những trạng thái trong một vùng lân cận. Gần đây hơn nữa thực thi biểu trƣng còn đƣợc kết hợp với kỹ thuật tìm kiếm tiến hóa. Trong đó hàm mục tiêu đƣợc sử dụng để định hƣớng không gian đầu vào của của các biến [30, 56 - 58]. Ví dụ với công cụ Austin [58] sử dụng tìm kiếm tiến hóa trong tìm kiếm đƣờng thực thi. Trong đó nó sử dụng một hàm mục tiêu phát triển tìm kiếm của không gian dữ liệu kiểm thử đầu vào. Với thực thi biểu trƣng động khai thác tốt đƣợc cả hai lĩnh vực trên, hiệu quả của kiểm thử phần mềm phụ thuộc vào chất lƣợng của hàm mục tiêu. Một vài tiếp cận hứa hẹn khác [30, 56, 57] khai thác thông tin trạng thái thực thi của giá trị cụ thể và thực thi biểu trƣng từ thực thi biểu trƣng động và phân tích tĩnh để cải tiến hàm mục tiêu cho kết quả sinh dữ liệu kiểm thử tốt hơn. Kiểm thử đột biến với các bộ test đầy đủ đƣợc đánh giá bằng cách kiểm tra khả năng xác định khác nhau của đột biến trong chƣơng trình cũng đã kết hợp thành công với thực thi biểu trƣng động [59]. Nhìn chung các phƣơng pháp mới trong việc kết hợp thực thi biểu trƣng và kỹ thuật tìm kiếm kinh nghiệm đã cho những kết quả hứa hẹn. Các nhà khoa học tin rằng những tiến bộ hơn nữa trong lĩnh vực này có thể đóng vai trò quan trọng trong việc giải quyết sự bùng nổ đƣờng dẫn trong thực thi biểu trƣng. Kỹ thuật phân tích tính đúng đắn của chương trình Một cách tiếp cận quan trọng khác cho vấn đề bùng nổ đƣờng dẫn từ phân tích chƣơng trình và kiểm chứng phần mềm nhằm giảm độ phức tạp của đƣờng dẫn thực thi chƣơng trình đó là sử dụng thông qua phân tích tính đúng đắn của chƣơng trình. Cách tiếp cận đơn giản đƣợc sử dụng để giảm số lƣợng đƣờng thực thi chƣơng trình là gộp lại theo hƣớng tĩnh sử dụng biểu diễn bởi cấu trúc lựa chọn, sau đó đƣợc truyền trực tiếp cho bộ giải [35]. Tiếp cận này có thể có hiệu quả trong nhiều trƣờng hợp 46 nhƣng nó không phù hợp khi truyền độ phức tạp cho bộ giải. Nội dung này sẽ đƣợc trình bày ở phần sau. Các kỹ thuật kết hợp cải tiến thực thi biểu trƣng bằng cách sử dụng bộ nhớ đệm và sử dụng lại phân tích của những hàm ở mức thấp trong những tính toán tiếp theo. Ý tƣởng chính của kỹ thuật này đƣợc thể hiện trong các tài liệu [58, 59] là tính toán, tóm tắt hàm đối với mỗi hàm kiểm thử đƣợc mô tả về điều kiện trƣớc và giá trị đầu ra của hàm và sử dụng lại sự tóm tắt này đối với những hàm ở mức cao. Sinh các ca kiểm thử lƣời [62]. Nó là một cách tiếp cận liên quan để tránh sự lặp lại trong khai phá đƣờng dẫn bằng cách tự động cắt tỉa các đƣờng dẫn dƣ thừa trong quá trình khám phá đƣờng dẫn. Kỹ thuật này dựa trên ý tƣởng nếu các đƣờng dẫn đạt đến cùng một điểm và cùng có ràng buộc tƣơng tự với đƣờng dẫn trƣớc đó thì sẽ đƣợc thực thi tƣơng tự đồng thời đƣờng dẫn đó sẽ bị loại bỏ. 2.1.2. Mô hình hóa bộ nhớ Độ chính xác của các câu lệnh của chƣơng trình khi chuyển sang các ràng buộc biểu trƣng có ảnh hƣởng đáng kể đến độ bao phủ khi thực hiện thực thi biểu trƣng cũng nhƣ khả năng giải các ràng buộc. Ví dụ khi sử dụng mô hình hóa bộ nhớ mà xấp xỉ để thiết lập độ rộng cho tham biến kiểu Interger có thể có hiệu quả hơn trong thực tế nhƣng mặt khác kết quả lại thiếu chính xác trong phân tích mã nguồn. Nó phụ thuộc vào khoảng lựa chọn giá trị tƣơng ứng nhƣ lỗi tràn bộ nhớ toán học, cũng có thể gây ra thiếu đƣờng dẫn trong thực thi biểu trƣng , hoặc khai phá những đƣờng đi không khả thi vv.. Một ví dụ khác là mô hình hóa bộ nhớ với con trỏ. Trong một phạm vị cần giải quyết, DART chỉ đƣợc thực hiện với các giá trị cụ thể, hoặc hệ thống CUTE và CREST chỉ hỗ trợ và thực hiện giải tốt với ràng buộc kiểu đẳng thức và bất đẳng thức trên kiểu dữ liệu con trỏ. Trong các ngôn ngữ khác nhau giống nhƣ EXE [55] hoặc gần đây hơn là KLEE và SAGE [63] thực hiện mô hình hóa con trỏ sử dụng khái niệm liên quan đến mảng, lựa chọn và cập nhật các thành phần bởi lời giải giống nhƣ với STP [35] và Z3 [64]. Việc cân bằng giữa độ chính xác và khả năng mở rộng có thể xác định đƣợc những phƣơng diện khi phân tích mã nguồn và sự thực hiện chính xác giữa các bộ giải ràng buộc khác nhau. Ngoài ra chú ý rằng thực thi biểu trƣng động cho phép điều chỉnh cả khả năng mở rộng và sự chính xác bởi các tùy biến đối với các giá trị cụ thể trong biểu thức biểu trƣng. 47 2.2. Thực thi biểu trƣng và công cụ mở rộng 2.2.1. Thực thi biểu trưng và kiểm thử phần mềm Sinh dữ liệu kiểm thử là một trong các giai đoạn quan trọng và quyết định trong kiểm thử phần mềm. Kỹ thuật sinh dữ liệu kiểm thử sử dụng thực thi biểu trƣng đƣợc cài đặt trên ngôn ngữ Java để sinh dữ liệu kiểm thử cho các chƣơng trình. Tuy nhiên, hiệu năng công cụ hiện có còn hạn chế: thời gian thực thi khá lớn. Việc áp dụng thuật toán tối ƣu các ràng buộc - biểu diễn các lộ trình thực thi mã nguồn - nhằm giảm thời gian thực thi, nhƣng vẫn đảm bảo hiệu quả bao phủ. Giải pháp cải tiến đƣợc thử nghiệm trên tập các chƣơng trình Java khác nhau và cho kết quả rất khả quan. Nội dung phần này trình bày về JPF nhƣ khả năng kiểm tra của JPF, kiến trúc mức cao của JPF và khả năng mở rộng của JPF. Cơ chế phổ biến nhất và hiệu quả nhất đƣợc sử dụng bởi các nhà thực thi biểu trƣng là tìm kiếm heuristic, với mục tiêu là hƣớng sự bùng nổ chƣơng trình đến những con đƣờng hứa hẹn nhất trong chƣơng trình. Các phƣơng pháp phỏng đoán phổ biến bao gồm tìm kiếm đƣờng dẫn theo ngẫu nhiên [30], tìm kiếm tiến hóa[36] và tìm kiếm tối ƣu hóa phạm vi [55, 65]. Thật không may, tìm kiếm heuristic chỉ làm giảm bớt một phần sự bùng nổ đƣờng dẫn và việc thực thi biểu trƣng vẫn có thể bị mắc kẹt trong các phần không liên quan của mã. Một kỹ thuật hiệu quả khác là cố gắng cắt tỉa các đƣờng dẫn chƣơng trình tƣơng đƣơng [66, 67]. Chẳng hạn, nếu một đƣờng dẫn đến một điểm chƣơng trình với một tập các ràng buộc tƣơng đƣơng với các đƣờng dẫn trƣớc đó đạt đến điểm đó, thì đƣờng dẫn thứ hai (và tất cả các đƣờng dẫn mà nó sẽ sinh ra) có thể bị chấm dứt. Kỹ thuật này tƣơng tự về mặt tinh thần với cách tiếp cận của luận án, nhƣng trực giao, vì nó không làm gì để ngăn chặn việc khám phá các d

Các file đính kèm theo tài liệu này:

luan_an_mot_so_cai_tien_ve_rang_buoc_xau_trong_sinh_du_lieu.pdf