Tại sao ta phải nhập mã Captcha?
Khi bạn truy cập vào một website, hay đăng nhập vào một nền tảng mạng xã hội, thi thoảng bạn được yêu cầu phải nhập một đoạn mã hay chọn những bức hình có xe ô tô. Đây được gọi là Captcha. Vậy, mã Captcha là gì? Vì sao chúng ta phải đi nhập dãy ký tự vô nghĩa hay nhận diện những hình ảnh ngẫu nhiên này?
Lịch sử phát triển của Captcha
Thực ra, Captcha là cụm từ viết tắt của một công cụ kiểm tra có tên khá “cồng kềnh”: “Completely Automated Public Turing test to tell Computers and Humans Apart” (tạm dịch: Phép thử tự động để phân biệt giữa máy tính và con người).
Cách vận hành của Captcha khá đơn giản: Chỉ cần nhập những đoạn kí tự bạn nghe/ nhìn thấy, hoặc chọn đúng hình ảnh được yêu cầu. Nếu nhập đúng, bạn được truy cập trang web. Nếu nhập sai, bạn phải thực hiện lại một Captcha khác. Nghe có vẻ đơn giản, nhưng mã Captcha cũng khiến không ít người dùng Internet “điên đầu”, bởi mã Captcha thường bị bóp méo hay làm mờ, khiến việc nhận diện mã Captcha đúng không phải là chuyện dễ.
Nguyên bản của Captcha được phát minh vào những năm 90, có hình dạng của các chữ số, chữ cái bị làm mờ. Các chữ cái/ chữ số này thường bị làm mờ, kéo giãn hoặc bóp méo. Người dùng Internet được yêu cầu phải nhận diện các chữ cái này và điền vào khung được yêu cầu của form. Nếu nhập đúng các kí tự này, người dùng sẽ vượt qua được bài kiểm tra.
Từ những năm 90, những dạng thức khác của Captcha cũng dần xuất hiện. Đôi khi người dùng phải nhận dạng các hình ảnh có chứa một vật thể cụ thể nào đó, ví dụ như biển báo hay một chiếc xe ô tô. Những hình ảnh này thường được scan từ một quyển sách hay một ấn phẩm. Các Captcha dạng âm thanh cũng được tạo ra, phục vụ cho các đối tượng khiếm thị.
Gần đây nhất, Google đã tạo ra một dịch vụ Captcha mới có tên là reCaptcha – dạng thức tinh xảo hơn Captcha nguyên bản.
reCaptcha nhận thấy rằng con người đôi khi cảm thấy việc hoàn thành mã Captcha phí phạm thời gian. Do vậy, reCaptcha sẽ phân tích hành vi trên trang xem có thực sự giống con người hay không. Nếu hệ thống reCaptcha nhận diện hành vi trên trang là giống con người, nó sẽ không yêu cầu người dùng thực hiện Captcha. Thay vào đó, người ta chỉ được yêu cầu tick vào box: I am not a robot. Ngược lại, nếu hành vi trên trang có vẻ “máy móc”, hệ thống sẽ đề xuất một bài kiểm tra Captcha phức tạp.
Vì sao ta phải nhập mã Captcha?
Captcha được hoạt động dựa trên nguyên lý rất cơ bản là sử dụng các quy tắc về ngôn ngữ, tiếng lóng của con người, thứ mà máy tính và internet không thể hiểu được.
Hiện tại, các chương trình máy tính thiếu sự tinh tế của con người khi xử lí các dữ liệu hình ảnh. Bộ não con người thiết lập để nhận diện các hoạ tiết, trong khi máy tính thì không. Máy tính chỉ có thể nhận diện chữ cái và chữ số, nhưng khả năng này cũng kém dần, nếu các kí tự bị bóp méo quá mức.
Theo một thống kê gần đây, con người có khả năng nhập đúng Captcha với tỉ lệ 80%. Trong khi đó khả năng này ở các máy tính hay robot được lập trình sẵn chỉ rơi vào 0,1%, cực kì thấp. Nhờ đó, Captcha có thể giúp phân biệt một cách rất chính xác giữa con người và các máy tính. Ngăn chặn những phần mềm độc hại, robot, máy tính được lập trình để tấn công vào hệ thống. Việc nhập Captcha sẽ khiến các xâm nhập bất hợp pháp phải dừng lại vì không thể vượt qua bước xác minh này.
Nếu không có Captcha, chuyện gì sẽ xảy ra?
Trên thế giới, đã có không ít doanh nghiệp/ tổ chức gặp phải vấn đề khi không có Captcha trên website. Một trong những trường hợp sớm nhất đã xảy ra vào cuối những năm 90, khi trang tin Slashdot công bố một cuộc bầu chọn đâu là trường Đại học cung cấp khoá học Khoa học Máy tính tốt hơn. Kết quả là, các sinh viên từ 2 trường, Carnegie Mellon và MIT, đã sử dụng các phần mềm tự động hoá để liên tục bầu chọn cho trường mình, khiến cuộc bình chọn trở nên vô nghĩa.
Hay vào năm 2013, nhãn hiệu siêu thị Target đã bị rò rĩ dữ liệu của hơn 70 triệu khách hàng. Theo Tsohost, một trong những nguyên nhân dẫn đến vụ việc này có thể là việc thiếu tích hợp mã Captcha. Rất có thể, một trong các cổng thu mua của Target bị thiếu tích hợp Captcha, khiến cho các bot dễ đang thâm nhập vào hệ thống của Target và rò rỉ thông tin của người dùng một cách trái phép.
Các mã Captcha hiện tại có các nhiệm vụ:
- Chống Spam: là một trong những phương pháp tấn công đơn giản nhưng phổ biến. Các bình luận spam, đăng ký tài khoản hàng loạt, mua hàng số lượng lớn ảo thường xuyên xảy ra. Sử dụng Captcha sẽ buộc các đối tượng tấn công phải là người thật, điều này khiến chúng mất nhiều thời gian để thực hiện.
- Bảo vệ thông tin, dữ liệu: Captcha ngày nay là một hình thức bảo vệ các cổng dữ liệu trên website. Ngăn chặn các truy cập tự động từ máy tính và robot để bảo vệ những thông tin quan trọng trong website.
- Đảm bảo tương tác thực: Nếu bạn thực hiện một cuộc khảo sát trên trang web sẽ ra sao nếu có những máy tính tham gia vào. Tất nhiên, kết quả sẽ bị sai lệch, khi số lượng máy tính lớn sẽ chiếm nhiều bằng thông làm chậm web khi có người thật truy cập.
Do các bot ngày càng tinh vi và phức tạp, Captcha cũng cần phải được cải tiến hơn. Nhiều người cho rằng, Captcha nên chạy theo xu hướng Gamification (Game hoá), số khác lại nghĩ rằng, Captcha nên được thay thế hoàn toàn bởi các bài kiểm tra sinh học, ví dụ như quét mống mắt.
Bài viết này thuộc series Glad You Asked của Techie – chia sẻ những kiến thức công nghệ nhỏ nhặt, thường bị bỏ lỡ nhưng vô cùng lí thú. Nhấn vào đây để xem thêm các bài viết thuộc series này.