Điều AI không biết: tri thức bản địa và nguy cơ sụp đổ trên toàn cầu

Khi trí tuệ nhân tạo thế hệ mới (GenAI) dần thay thế các phương thức tìm kiếm và học hỏi truyền thống, chúng ta có thể đang vô tình xóa nhòa kho tàng tri thức địa phương và kinh nghiệm dân gian tích lũy qua nhiều thế kỷ. Ở bài viết này, Techie sẽ đem đến góc nhìn về hệ quả của “sự sụp đổ tri thức” truyền thống mà AI có thể gây ra!

Từ câu chuyện cá nhân đến nhận thức về tri thức bản địa

Trong một bài viết gần đây trên tờ The Guardian, tác giả người Ấn Độ Deepak Varuvel Dennison đã chia sẻ một câu chuyện cá nhân đầy kịch tính. Khi cha anh được chẩn đoán mắc khối u ác tính ở lưỡi, gia đình Dennison phải đứng giữa hai sự lựa chọn. Trong khi chị gái anh, một bác sĩ y học phương Tây, chỉ định điều trị bằng phương pháp phẫu thuật, cha của Deepak lại tin vào phương pháp trị liệu truyền thống bằng thảo dược của người bản địa.

Deepak Varuvel Dennison
Tác giả Deepak Varuvel Dennison trong buổi làm việc với Microsoft Research

Giống như nhiều millennials, Deepak tìm đến Internet để kham khảo thông tin. Sau nhiều ngày nghiên cứu kỹ lưỡng, anh quyết định ủng hộ phương án phẫu thuật. Tuy nhiên, trong thời gian đó, cha anh đã âm thầm dùng bài thuốc thảo dược. Điều bất ngờ là chỉ sau vài tháng, khối u đã thật sự co lại và biến mất.

Mặc dù xem đây như một ngoại lệ may mắn, nhưng trải nghiệm này đã khiến Deepak nhận ra rằng tri thức truyền thống và các nguồn thông tin trên nền tảng số không phải lúc nào cũng trùng khớp. Và trong kỷ nguyên GenAI, những khác biệt này có nguy cơ bị đẩy lên mức nghiêm trọng hơn.

Sự “bất bình đẳng” về ngôn ngữ trong các tập dữ liệu

Chúng ta biết rằng Gen AI, hay còn được gọi Trí tuệ nhân tạo tạo sinh (Generative AI) được đào tạo trên các tập dữ liệu khổng lồ gồm nội dung từ sách, bài báo, trang web và ác bản ghi chép, do đó được gọi là “mô hình ngôn ngữ lớn” (LLM). Tuy nhiên, dữ liệu đào tạo này còn xa mới phản ánh toàn bộ tri thức nhân loại, đặc biệt là đối với văn hóa truyền miệng. Mặt khác, theo báo cáo năm 2020, có đến 88% ngôn ngữ bị bỏ qua trong quá trình đào tạo AI. Và việc đưa chúng lên mức tương đương với các ngôn ngữ phổ biến là thử thách cực kỳ khó khăn, thậm chí gần như không thể.

Ngôn ngữ đào tạo AI
Có đến 88% ngôn ngữ bị bỏ qua trong quá trình đào tạo AI

Để hiểu tại sao điều này quan trọng, trước hết chúng ta phải nhận ra rằng ngôn ngữ là phương tiện chứa đựng tri thức. Mỗi ngôn ngữ mang theo cả một thế giới kinh nghiệm và hiểu biết của con người được tích lũy qua nhiều thế kỷ. Đó có thể là những nghi lễ và tập quán hình thành cộng đồng, cách nhìn nhận cái đẹp và sáng tạo nghệ thuật đặc trưng, sự am hiểu sâu về cảnh quan và hệ sinh thái địa phương, những quan điểm triết lý và tâm linh, từ vựng tinh tế để mô tả trải nghiệm nội tâm, chuyên môn hóa trong nhiều lĩnh vực, các khung tổ chức xã hội và công lý, ký ức tập thể và các câu chuyện lịch sử, truyền thống chữa lành và các mối quan hệ xã hội tinh vi.

Khi hệ thống AI không được tiếp xúc đầy đủ với một ngôn ngữ, chúng sẽ bị thiếu sót trong hiểu biết về trải nghiệm con người. Dữ liệu từ Common Crawl, một trong những nguồn dữ liệu công khai lớn nhất để đào tạo AI, cho thấy sự bất bình đẳng rõ rệt. Nó chứa hơn 300 tỷ trang web trong 18 năm, nhưng tiếng Anh – được khoảng 19% dân số thế giới sử dụng – chiếm ưu thế, với 45% nội dung, trong khi tiếng Hindi chỉ 0,2% và tiếng Tamil chỉ 0,04%, dù có hàng triệu người sử dụng.

Tại sao tri thức truyền thống quan trọng?

Bàn về chủ đề này, Deepak đã đề cập đến ý tưởng về bá quyền văn hóa của triết gia người Ý Antonio Gramsci.

Gramsci cho rằng quyền lực không chỉ được duy trì thông qua sức mạnh hay kiểm soát kinh tế, mà còn thông qua việc định hình các chuẩn mực văn hóa và niềm tin trong đời sống hằng ngày. Theo thời gian, các cách tiếp cận tri thức dựa trên truyền thống phương Tây được xem là khách quan và phổ quát. Quá trình này đã “bình thường hóa” tri thức phương Tây thành chuẩn mực, che khuất những yếu tố lịch sử và chính trị đã giúp nó vươn lên.

Tuy nhiên, tri thức không chỉ là khái niệm trừu tượng hay nhận thức, mà hiện hữu xung quanh chúng ta, ảnh hưởng trực tiếp đến cơ thể và trải nghiệm đời sống. Tác giả đã đưa ra 2 dẫn chứng về hệ quả khi tri thức bản địa bị lãng quên.

Đầu tiên, dễ nhìn thấy nhất là các tòa nhà cao tầng với mặt kính ở Ấn Độ – kiến trúc này đối lập rõ rệt với phương pháp xây dựng bản địa mà địa phương này đang cố gắng phục hồi. Những tòa nhà kính – phản ánh kiến trúc hiện đại phương Tây – ban đầu được thiết kế cho vùng khí hậu lạnh, ít ánh sáng. Các tòa nhà này được ca ngợi về hiệu quả năng lượng, cho phép ánh sáng tự nhiên tràn vào nội thất và giảm phụ thuộc vào chiếu sáng nhân tạo.

Đồng hóa tri thức ở Ấn Độ
Các tòa nhà kính cao tầng là biểu tượng của sự đồng hóa tri thức ở Ấn Độ

Tuy nhiên, khi áp dụng ở vùng nhiệt đới, thiết kế này trở thành mâu thuẫn môi trường. Ở nơi có ánh sáng mặt trời gay gắt, nghiên cứu cho thấy các mặt kính khiến nhiệt độ trong nhà tăng cao, gây khó chịu về nhiệt, ngay cả với kính hiện đại. Thay vì tiết kiệm năng lượng, các tòa nhà này tốn nhiều năng lượng hơn để duy trì mát mẻ. Dẫu vậy, mặt kính đã trở thành biểu tượng của hiện đại hóa đô thị, từ San Francisco, Jakarta đến Lagos – bất chấp khí hậu hay bối cảnh văn hóa. Khi biến đổi khí hậu gia tăng, những tòa nhà kính này như lời nhắc về nguy cơ đồng nhất hóa tri thức.

Dẫn chứng thứ hai về hậu quả của mất tri thức là vấn đề quản lý nước tại tại Bengaluru – thủ phủ bang Karnataka ở miền Nam Ấn Độ, nơi thường ngập lụt nghiêm trọng vào tháng Năm nhưng lại thiếu nước sinh hoạt vào tháng Ba.

Bengaluru từng nổi tiếng với hệ thống quản lý nước thông minh, dựa trên chuỗi hồ liên kết. Trong nhiều thế kỷ, những hồ này được quản lý bởi các cộng đồng chuyên trách người Neeruganti nhằm điều phối dòng chảy và đảm bảo phân phối công bằng. Tùy theo lượng mưa, họ hướng dẫn nông dân trồng loại cây phù hợp, thường là giống tiết kiệm nước. Họ còn duy trì hồ: nạo vét, trồng cây chống xói mòn, thông các kênh dẫn nước.

Ngập lụt đô thị
Bengaluru ngập lụt vào tháng Năm nhưng thiếu nước vào tháng Ba

Tuy nhiên, cùng với hiện đại hóa, quản lý nước do cộng đồng đảm nhận nhường chỗ cho hệ thống tập trung và giải pháp cá nhân như tưới từ đập xa hay giếng khoan. Thời kỳ cách mạng Xanh cuối thập niên 1960 – khi Ấn Độ áp dụng nông nghiệp công nghiệp hiện đại – đẩy mạnh các loại cây trồng cần nhiều nước và phân bón từ phòng thí nghiệm phương Tây, người Neeruganti bị loại khỏi vai trò quản lý nước. Hồ và kênh địa phương xuống cấp, một số bị xây đè thành đường, tòa nhà hay bến xe buýt.

Những năm gần đây, các chuyên gia nhận ra rằng khôi phục các hệ thống hồ này là chìa khóa cứu Bengaluru khỏi khủng hoảng nước. Một nhân viên xã hội tham gia nhiều dự án cho biết họ thường tham khảo các trưởng lão Neeruganti. Những kiến thức này quý giá, nhưng không được ghi chép. Có những tri thức tồn tại chỉ qua ngôn ngữ bản địa, truyền miệng và gần như không có trên không gian số, chưa nói đến các hệ thống AI.

Mặc dù các ví dụ trên chủ yếu từ Ấn Độ, tuy nhiên vấn đề mất cân bằng tri thức tương tự phổ biến toàn cầu, bắt nguồn từ lịch sử thực dân và đế quốc. Trong cuốn sách Decolonizing Methodologies (1999), học giả Māori Linda Tuhiwai Smith nhấn mạnh rằng thực dân hóa đã phá vỡ hệ thống tri thức bản địa, cắt đứt liên kết với ngôn ngữ, lịch sử và cấu trúc xã hội. Và chính trên nền tảng méo mó này mà các hệ thống số và GenAI ngày nay được xây dựng.

Vòng lặp phản hồi của AI

Khi làm việc với Microsoft Research, tác giả Deepak Varuvel Dennison còn nhận ra một vấn đề khác, đó là các mô hình AI có xu hướng tái tạo và củng cố những ý tưởng phổ biến nhất về mặt thống kê.

Tại sao lại như vậy? Việc biểu diễn tri thức bên trong một LLM không đồng đều. Những khái niệm xuất hiện thường xuyên hơn, nổi bật hơn hoặc trong nhiều bối cảnh hơn trong dữ liệu huấn luyện thường được mã hóa mạnh hơn. Ví dụ, nếu pizza thường được nhắc đến là món ăn yêu thích trong nhiều văn bản huấn luyện, khi hỏi “món ăn yêu thích của bạn là gì?”, mô hình có khả năng trả lời “pizza” cao hơn vì sự liên kết này nổi bật về mặt thống kê.

Sự phân bố không đồng đều này còn bị tác động thêm bởi học tăng cường dựa trên phản hồi con người (RLHF), nơi các mô hình GenAI được tinh chỉnh dựa trên sở thích của con người. Điều này tất yếu nhúng vào mô hình các giá trị và quan điểm của người tạo ra chúng.

Áp lực thương mại tạo thêm một tầng tác động khác. Người dùng có giá trị nhất – những chuyên gia nói tiếng Anh sẵn sàng trả $20–200 mỗi tháng cho AI cao cấp – trở thành mẫu chuẩn ngầm cho “siêu trí tuệ”.  Không có gì ngạc nhiên khi nhiều nghiên cứu chỉ ra rằng LLM phản ánh chủ yếu giá trị và tri thức phương Tây. Chúng làm nổi bật các nhóm ưu thế, củng cố và khuếch đại định kiến của những nhóm này, đồng thời có độ chính xác cao hơn về các chủ đề liên quan Bắc Mỹ và châu Âu. Ngay cả trong lĩnh vực gợi ý du lịch hay kể chuyện, LLM tạo ra nội dung phong phú hơn cho các quốc gia giàu có so với các quốc gia nghèo.

Vòng lặp phản hồi AI
Vấn đề phòng lặp phản hồi ở AI

Khi nội dung do AI tạo ra ngày càng chiếm diện tích trên Internet, nó tạo lớp khuếch đại mới cho các ý tưởng đã phổ biến. Internet – nguồn tri thức chính cho các mô hình AI – bị ảnh hưởng tuần hoàn bởi chính các sản phẩm AI tạo ra. Qua mỗi chu kỳ huấn luyện, các mô hình mới ngày càng dựa nhiều vào nội dung do AI sinh ra, tạo ra vòng lặp phản hồi, nơi các ý tưởng ưu thế liên tục được khuếch đại, trong khi tri thức ít phổ biến hoặc đặc thù dần biến mất.

Nhà nghiên cứu AI Andrew Peterson gọi hiện tượng này là “sụp đổ tri thức” (knowledge collapse): một quá trình thu hẹp dần lượng thông tin con người có thể tiếp cận, cùng sự giảm nhận thức về quan điểm thay thế hoặc ít được biết đến.

Liệu có thể phát triển AI mà vẫn bảo tồn tri thức bản địa?

Chúng ta thường coi việc mất tri thức bản địa là bi kịch chỉ của cộng đồng nắm giữ nó. Nhưng trên thực tế, mất mát này là vấn đề của toàn cầu. Tri thức địa phương không phải là mất mát nhỏ: nó là sự gián đoạn trong mạng lưới hiểu biết rộng lớn, duy trì cả sức khỏe con người lẫn hệ sinh thái. Giống như các loài sinh vật thích nghi với môi trường địa phương, hệ thống tri thức của con người cũng thích nghi với đặc thù nơi chốn. Khi những hệ thống này bị phá vỡ, hậu quả lan rộng vượt ra ngoài điểm xuất phát.

Khói cháy rừng không phân biệt mã bưu điện. Nước ô nhiễm không dừng ở ranh giới bang. Nhiệt độ tăng không quan tâm đến biên giới quốc gia. Vi trùng lây nhiễm không cần visa. Dù chúng ta có nhận thức hay không, chúng ta sống trong một hệ sinh thái liên kết, nơi vết thương địa phương trở thành nỗi đau toàn cầu.

Nguồn tri thức bản địa
Liệu thế hệ sau có được kế thừa nguồn tri thức bản địa?

Mâu thuẫn lớn nhất với tác giả khi viết bài này là: ông cố gắng thuyết phục độc giả về tầm quan trọng của hệ thống tri thức địa phương, trong khi bản thân còn nghi ngờ hiệu quả của bài thuốc thảo dược của cha mình. Sự bất định này tưởng như phản bội những luận điểm của bài viết, nhưng cũng có thể là phức tạp trung thực cần có để nhìn nhận vấn đề.

Ông nghi ngờ liệu tri thức bản địa có luôn hiệu quả như tuyên bố hay không, nhất là khi nó bị khai thác hời hợt để tăng lượt thích hoặc phục vụ chính trị. Tuy nhiên, ông cũng cảnh giác việc để tri thức này biến mất. Chúng ta có thể mất những giá trị quan trọng, để rồi nhận ra quá muộn, và hậu quả là một thảm họa sinh thái có thể tránh được.

Các nhà phát triển AI tin rằng công nghệ của họ sẽ thúc đẩy tiến bộ khoa học và giải quyết những thách thức lớn nhất. Nhưng nhiều câu hỏi còn bỏ ngỏ: liệu chúng ta có thể tiến tới tương lai công nghệ mà vẫn tôn trọng và học hỏi các hệ thống tri thức từng bị xem thường? Hay chúng ta sẽ tiếp tục xóa bỏ các tri thức này và cuối cùng phải chạy đua đến sao Hỏa vì chưa biết cách sống bền vững trên Trái Đất?

>>Xem thêm: Hẹn hò thời AI: Bạn đang yêu con người hay yêu thuật toán?

Khám phá thêm
Mối quan hệ tình yêu luôn là một chủ đề hấp dẫn và phức tạp. Cũng dễ hiểu khi nhiều...
“Chúng ta đang sống trong thế giới VUCA” – Câu nói này đã diễn tả đúng tình trạng thế giới...
Trong bài viết này, Techie sẽ giới thiệu đến bạn bản chất của tính năng constraints và auto-layout figma, cũng...
Temu, một ứng dụng mua sắm Trung Quốc, đang gây chấn động trên internet với những sản phẩm rất rẻ....
Theo một “nguồn tin mật” cho hay, Ghibli chính thức công bố trailer phần tiếp theo của tựa phim Vùng...
Cảm biến sinh học (Biosensor) đã đánh dấu một thành tựu quan trọng trong cuộc chiến chống đại dịch COVID-19 khi...
Với tỷ lệ dân số sử dụng Internet chiếm đến hơn 70%, Việt Nam luôn được coi là thị trường...
Thuật toán Dijkstra là một công cụ quan trọng trong lý thuyết đồ thị và tối ưu hóa. Với khả...