Điều gì xảy ra khi nội dung do AI tạo ra chiếm lĩnh internet?

Ngày càng có nhiều người sử dụng các chatbot AI để tạo nội dung và đăng tải lên internet. Điều này dẫn đến việc các thuật toán AI đang bắt đầu học từ chính sản phẩm do chúng tạo ra. Kịch bản cho một tương lai ngập tràn nội dung AI là gì? Cùng Techie tìm câu trả lời ngay sau đây! 

Để các mô hình AI trở nên tinh vi hơn, chúng cần nắm bắt các nội dung mới. Do đó, ngoài những tài liệu sách vở chuyên sâu, các bài viết trực tuyến, bài đăng trên Reddit, chú thích Tiktok hoặc cả bình luận trên YouTube đều là nguồn data để các thuật toán đằng sau ChatGPT hay Gemini học hỏi nhằm tạo ra nội dung.

Một nghiên cứu đăng trên tạp chí Nature tuần này cho thấy một thuật toán AI tạo sinh văn bản, khi được huấn luyện trên nội dung do chính AI tạo ra chỉ sau vài chu kỳ, chúng đã sản xuất ra những điều hoàn toàn vô nghĩa.

“Việc nội dung do AI tạo ra lan tràn trên internet có thể gây hại nghiêm trọng cho chính các mô hình này”. Tiến sĩ Emily Wenger tại Đại học Duke cho biết. Khi một mô hình AI bị nạp quá nhiều dữ liệu do chính nó tạo ra, nó sẽ bị lấn át bởi “tiếng ồn” và hậu quả cuối cùng thậm chí là dẫn đến hiện tượng “sụp đổ mô hình”.

Ảo giác hay sự sụp đổ?

Hiện tượng “hallucination” (tạm dịch: “ảo giác”) đề cập đến việc AI “bịa” ra những thông tin không có thật. Những ảo giác này đôi khi có thể gây ra hậu quả rất nghiêm trọng. Chẳng hạn như trong lĩnh vực y tế, nó có thể khẳng định một vết trầy xước là ung thư!

Ảo giác ở AI
Ảo giác ở AI

Nhưng hiện tượng “sụp đổ mô hình” lại khác. Nó đề cập đến việc AI được huấn luyện trên dữ liệu của chính nó và chất lượng dần suy giảm qua các thế hệ. Ví một cách nôm na, nó giống như hiện tượng giao phối cận huyết, khi con cháu có khả năng cao thừa hưởng các bệnh tật. Mặc dù từ lâu, các nhà khoa học máy tính đã nhận thức về vấn đề này, nhưng cách thức và lý do tại sao nó xảy ra thì người ta vẫn chưa giải quyết được.

Trong nghiên cứu mới, các nhà khoa học đã xây dựng một mô hình ngôn ngữ lớn tùy chỉnh và huấn luyện nó bằng các bài viết trên Wikipedia. Sau đó, họ tinh chỉnh mô hình 9 lần bằng cách sử dụng các bộ dữ liệu được tạo ra từ chính đầu ra của mô hình và đo chất lượng đầu ra bằng điểm “perplexity” (sự rối rắm). Đúng như tên gọi, điểm càng cao thì văn bản tạo ra càng khó hiểu.

Chỉ sau vài chu kỳ, AI đã suy thoái đáng kể.

Trong một ví dụ, nhóm nghiên cứu đã đưa ra một yêu cầu dài về lịch sử xây dựng nhà thờ. Sau 2 vòng lặp đầu tiên, AI tạo ra phản hồi tương đối mạch lạc về kiến trúc phục hưng, dù thi thoảng xuất hiện ký tự “@” không liên quan. Tuy nhiên, tới chu kỳ huấn luyện thứ 5, văn bản đã hoàn toàn lệch khỏi chủ đề ban đầu. Khi đến chu kỳ tinh chỉnh thứ 9, kết quả phản hồi trở nên kỳ quặc.

Đáng chú ý là, AI được huấn luyện trên dữ liệu tự tạo thường kết thúc phản hồi bằng các cụm từ lặp đi lặp lại, nhóm nghiên cứu giải thích. Khi cố gắng đẩy AI tránh khỏi sự lặp lại, hiệu suất của AI thậm chí còn tồi tệ hơn. Kết quả này được duy trì trong nhiều thử nghiệm sử dụng các yêu cầu khác nhau, cho thấy đây là một vấn đề vốn có trong quy trình huấn luyện, chứ không phải do ngôn ngữ của yêu cầu.

Một vòng huấn luyện tuần hoàn

Ở những chu kỳ cuối, AI cũng gặp sự cố vì nó dần “quên” các dữ liệu huấn luyện qua từng thế hệ. Điều này tương tự với não bộ ở con người. Não của chúng ta cũng quên đi những thông tin cũ và thu thập những thông tin mới. Tuy nhiên, với AI, điều này đáng quan ngại hơn. Bởi nội dung của nó vốn dĩ chỉ có thể thu thập từ internet.

Chưa kể, các văn bản do AI tạo ra trước đó vốn dĩ đã có xu hướng thiên về khái niệm, cụm từ và tông điệu quen thuộc hơn so với các ý tưởng và phong cách viết ít phổ biến. Các thuật toán mới được huấn luyện trên dữ liệu này sẽ làm trầm trọng thêm sự thiên vị, có thể dẫn đến sự sụp đổ của mô hình.

Huấn luyện AI
 Sự tai hại khi AI được huấn luyện từ chính nội dung do nó tạo ra

Đây cũng là một thách thức đối với sự công bằng của AI trên toàn cầu. Bởi, AI được huấn luyện trên dữ liệu tạo bởi chính nó sẽ không nắm bắt được sự phức tạp và tinh thế trong thế giới của con người. Nó cũng bỏ qua những nội dung “không phổ biến”, như là suy nghĩ của nhóm thiểu số, những ngôn ngữ ít được sử dụng…

Làm thế nào để khắc phục vấn đề trên? Một ý tưởng được cả Google, Meta và OpenAI đề xuất là sử dụng watermark. Các chữ ký kỹ thuật số sẽ được nhúng vào dữ liệu do AI tạo ra, để từ đó người ta có thể phát hiện và loại bỏ chúng khỏi các tập dữ liệu dùng để huấn luyện. Dẫu vậy, wartermark không phải là giải pháp toàn diện. Bởi chưa kể đến việc liệu Google, Meta và OpenAI có đồng ý về một giao thức chung hay không, thì vẫn còn nhiều công ty và những cá nhân khác có thể không gắn watermark cho sản phẩm tạo bằng AI.

Cách con người huấn luyện các mô hình AI thật sự quan trọng

Những thông tin trên không có nghĩa là sự sụp đổ của mô hình AI đang cận kề. Bởi, nghiên cứu trên chỉ thực hiện ở quy mô nhỏ, trên một mô hình AI tạo nội dung là các văn bản. Chưa kể đến việc AI còn đang được tiếp cận âm thanh, hình ảnh, video… chưa rõ liệu hiện tượng tương tự có xuất hiện hay không.

Tuy nhiên, có một kết luận đáng chú ý là việc bổ sung nhiều dữ liệu do con người tạo ra trong các chu kỳ huấn luyện sẽ giúp AI trở nên mạch lạc hơn. Đồng nghĩa, có một lợi thế cho những người tiên phong trong lĩnh vực AI. Các công ty thu thập dữ liệu từ internet sớm hơn trước khi nó bị “ô nhiễm” bởi các nội dung do AI tạo ra sẽ có chất lượng dữ liệu tốt hơn.

Tóm lại thì, không thể phủ nhận AI đang thay đổi thể giới. Nhưng đồng thời, các mô hình không thể phát triển theo thời gian nếu thiếu đầu ra gốc từ trí óc con người.

>>Xem thêm: Bảo vệ an ninh mạng cá nhân – Dịch vụ mới nổi dành cho giới siêu giàu!

Khám phá thêm
Mối quan hệ tình yêu luôn là một chủ đề hấp dẫn và phức tạp. Cũng dễ hiểu khi nhiều...
“Chúng ta đang sống trong thế giới VUCA” – Câu nói này đã diễn tả đúng tình trạng thế giới...
Trong bài viết này, Techie sẽ giới thiệu đến bạn bản chất của tính năng constraints và auto-layout figma, cũng...
Temu, một ứng dụng mua sắm Trung Quốc, đang gây chấn động trên internet với những sản phẩm rất rẻ....
Theo một “nguồn tin mật” cho hay, Ghibli chính thức công bố trailer phần tiếp theo của tựa phim Vùng...
Cảm biến sinh học (Biosensor) đã đánh dấu một thành tựu quan trọng trong cuộc chiến chống đại dịch COVID-19 khi...
Thuật toán Dijkstra là một công cụ quan trọng trong lý thuyết đồ thị và tối ưu hóa. Với khả...
Với tỷ lệ dân số sử dụng Internet chiếm đến hơn 70%, Việt Nam luôn được coi là thị trường...