Google sẽ xây dựng mô hình AI hỗ trợ 1000 ngôn ngữ
Tại sự kiện về AI được tổ chức ở thành phố New York (Hoa Kỳ) vừa qua, Google đã công bố dự án mở rộng danh mục ngôn ngữ bằng cách sử dụng công nghệ trí tuệ nhân tạo (AI) để hỗ trợ 1000 ngôn ngữ được nói nhiều nhất trên toàn cầu.
Dự án vừa mới được hé lộ cho thấy tham vọng cực lớn của Google, hứa hẹn sẽ mang lại những lợi ích rất lớn cho toàn bộ hệ sinh thái của gã khổng lồ công nghệ.
Theo Jeff Dean, thành viên cấp cao của Google cho biết, hiện nay đang có khoảng hơn 7.000 ngôn ngữ được sử dụng trên khắp thế giới, tuy nhiên mới chỉ có một số ít ngôn ngữ được hiện diện trực tuyến một cách chất lượng. Theo đó, Google đang nhắm tới việc mở rộng chức năng dịch thuật cũng như khai thác dữ liệu trên các ngôn ngữ mới.
Theo một nguồn tin cho hay, ở bước đầu tiên trong dự án, Google sẽ công bố mô hình AI được đào tạo trên cơ sở hơn 400 ngôn ngữ – được đánh giá là “một mô hình ngôn ngữ lớn nhất hiện nay”.
Ngôn ngữ và công nghệ AI luôn được cho là trọng tâm trong các sản phẩm của Google, nhưng những tiến bộ gần đây trong công nghệ máy học (machine learning) – đặc biệt là sự phát triển của các “mô hình ngôn ngữ lớn” (LLMs) đa năng, mạnh mẽ, đã đặt thêm một trọng tâm mới cho lĩnh vực này.
Google đã bắt đầu tích hợp các mô hình ngôn ngữ này vào sản phẩm Google Search, bất chấp những chỉ trích về khả năng hoạt động của hệ thống. Các mô hình ngôn ngữ hiện tại vẫn có nhiều sai sót, bao gồm cả việc làm dấy lên những vấn đề tiêu cực trong xã hội như phân biệt chủng tộc hay xu hướng bài ngoại. Đồng thời, AI cũng không có khả năng phân tích ngôn ngữ với sự nhạy cảm của con người. Bản thân Google đã từng sa thải thẳng tay các nhà nghiên cứu của công ty sau khi họ xuất bản các bài báo nói về những vấn đề trên.
Mặc dù vậy, các mô hình này có khả năng thực hiện rất nhiều tác vụ khác nhau: từ sản sinh ngôn ngữ (như OpenAI’s GPT-3) đến dịch thuật. “Sáng kiến tích hợp đến 1.000 ngôn ngữ” của Google sẽ không tập trung vào bất kỳ chức năng cụ thể nào mà thay vào đó là tạo ra một hệ thống duy nhất với lượng kiến thức khổng lồ về các ngôn ngữ khác nhau trên thế giới.
Zoubin Ghahramani, phó chủ tịch phòng nghiên cứu Google AI cho biết, công ty tin rằng việc tạo ra một mô hình quy mô lớn như thế sẽ giúp tích hợp các tính năng của AI vào các loại ngôn ngữ ít phổ biến một cách dễ dàng hơn trên không gian trực tuyến và huấn luyện dữ liệu cho AI.
Được biết, các dự án quy mô lớn về ngôn ngữ đang trở thành điển hình cho tham vọng thống trị lĩnh vực nghiên cứu AI của nhiều công ty công nghệ. Một dự án đáng chú ý gần đây có thể kể đến là Universal Speech Translator của Meta, với mục tiêu dịch ngôn ngữ từ giọng nói thay vì chữ viết.
Quay trở lại với câu chuyên của Google, việc có quá nhiều ngôn ngữ sẽ có khả năng khiến việc truy cập dữ liệu trở nên khó khăn hơn. Mặt khác, để có thể tích hợp 1.000 ngôn ngữ, công ty sẽ phải tài trợ cho việc thu thập dữ liệu từ các ngôn ngữ ít phổ biến, bao gồm cả bản ghi âm và văn bản dạng viết.
Hiện, Google cho biết chưa có kế hoạch cụ thể về những ứng dụng sẽ được áp dụng chức năng chuyển ngữ này. Tuy nhiên, đại diện công ty hy vọng nó sẽ sớm được tích hợp trên các sản phẩm của Google, từ Google Dịch đến phụ đề YouTube và hơn thế nữa.
Bên cạnh mô hình dịch thuật 1.000 ngôn ngữ, Google cũng chia sẻ thêm nghiên cứu mới về mô hình chuyển văn bản thành video (text-to-video), trợ lý viết AI mang tên Wordcraft và bản cập nhật mới cho ứng dụng AI Test Kitchen. Ngoài ra, Google còn cho phép người dùng truy cập vào các mô hình AI đang được phát triển như mô hình chuyển văn bản thành hình ảnh Imagen.