Vừa “trình làng” AI Gemini, Google đã úp mở về chatbot hiểu rõ “toàn cảnh” cuộc sống người dùng

Trong khi mô hình AI Gemini của Google vẫn đang được bàn tán vì “mạnh hơn GPT-4” thì mới đây, các nhà phát triển đã đề xuất một mô hình trí tuệ nhân tạo hoàn toàn mới. Mô hình có tên là “Project Ellmann” sẽ tạo ra một góc nhìn toàn cảnh về cuộc sống người dùng dựa trên dữ hiệu hình ảnh và thói quen duyệt web của họ. Cập nhật ngay cùng Techie!

Mô hình AI tổng quát Gemini – tương lai của Google.

Hôm 6/12, Google đã chính thức trình làng mô hình AI “mạnh mẽ nhất” và tiên tiến nhất của mình: Gemini. Google Gemini được tổng hợp kiến thức từ 57 môn học để giải quyết vấn đề, là AI đầu tiên vượt qua con người ở cấp độ chuyên gia. Trong một số trường hợp, nó có thể vượt qua GPT-4 của OpenAI. Một trong những tính năng nổi bật của Gemini là multimodal, có nghĩa là nó có thể xử lý và hiểu thông tin vượt ra khỏi văn bản, bao gồm hình ảnh, video và âm thanh.

Google Gemini
Gemini được đề cập lần đầu hồi tháng 5 tại sự kiện Google I/O 2023

Để đáp ứng nhu cầu sử dụng linh hoạt, Gemini được cung cấp với 3 phiên bản khác nhau. Bao gồmGemini Ultra, Gemini Pro và Gemini Nano. Trong đó, Gemini, Gemini Ultra là mô hình kích thước lớn nhất và mạnh mẽ nhất.

Theo kết quả thử nghiệm được công bố bởi Googe, Gemini Ultra đạt điểm 90% trong bài kiểm tra khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU – Massive Multitask Language Understanding). Với việc được training từ tổ hợp 57 môn học như toán, vật lý, lịch sử, y học, luật, đạo đức… Gemini có khả năng giải quyết vấn đề, đồng thời có thể “sử dụng khả năng của mình để nghĩ kỹ hơn trước khi trả lời những câu hỏi khó”.

CEO Google Sundar Pichai cho biết Gemini sẽ sớm được tích hợp vào các công cụ và ứng dụng của hãng. Đây chính là tương lai của Google.

Và trong khi mô hình AI tổng quát Gemini vẫn còn đang được tích hợp, thì theo thông tin mới đây, Google đang có đề xuất phát triển một mô hình ấn tượng không kém: Project Ellmann.

Những thông tin ban đầu về dự án Ellmann

Ellmann được đề xuất bởi một nhóm phát triển tại Google, dựa theo tên của nhà tiểu sử học và nhà phê bình văn học Richard David Ellmann. Ý tưởng của dự án là sử dụng các Mô hình Ngôn ngữ Lớn (LLMs) của Gemini để phân tích Google Photos và lịch sử tìm kiếm. Từ đó phát triển cái nhìn tổng quan về cuộc sống của người dùng.

Hiện Google vẫn chưa chính thức công bố về việc phát triển dự án. Tin tức đến từ một bài thuyết trình trong cuộc họp nội bộ và sau đó rò rỉ tới CNBC. Bài thuyết trình đã đặt ra ví dụ: “Hãy tưởng tượng mở ChatGPT nhưng nó đã biết mọi thứ về cuộc đời bạn. Bạn sẽ hỏi nó điều gì?”

Được biết theo thông tin công bố trên blog của Google, hiện Google Photos đang có hơn 1 tỷ người dùng và 4 nghìn tỷ ảnh, video. Một quản lý sản phẩm của Google Photos đã trình bày dự án Ellman cùng với các nhóm Gemini trong hội nghị nội bộ của công ty, và cho biết rằng các mô hình ngôn ngữ lớn là công nghệ lý tưởng để biến ý tưởng nhìn từ trên cao về câu chuyện cuộc đời của một người thành hiện thực.

“Chúng tôi rà soát qua ảnh của bạn, xem xét các thẻ được gắn và địa điểm để nhận biết một khoảnh khắc ý nghĩa. Khi chúng tôi lui lại và hiểu rõ cuộc sống của bạn từ đầu đến cuối, câu chuyện toàn cục của bạn sẽ  trở nên rõ ràng.” Một slide trình bày nói.

Bản trình bày cũng cho biết, mô hình có thể suy luận về các khoảnh khắc, chẳng hạn như việc một người dùng có con. “LLM này có thể sử dụng kiến thức từ phía trên của cây để suy luận rằng đây là lúc Jack được sinh ra, và anh ta là đứa con đầu tiên và duy nhất của James và Gemma.” 

Dự án Ellmann
Ellmann có thể kể câu chuyện cuộc đời của người dùng

Ngoài ra, Ellmann cũng có thể trình bày tóm tắt về thói quen ăn uống của người dùng cũng như sở thích, công việc và kế hoạch du lịch dự trên các bức ảnh chụp của họ. Nó cũng có khả năng đoán biết được các trang web và ứng dụng yêu thích của họ, ví dụ như Google Docs, Reddit và Instagram.

Một người phát ngôn của Google cho biết: “Google Photos luôn sử dụng trí tuệ nhân tạo để giúp mọi người tìm kiếm ảnh và video của họ, và chúng tôi hứng thú với tiềm năng của các Mô hình Ngôn ngữ Lớn để mở khóa những trải nghiệm hữu ích hơn. Đây chỉ là một cuộc khám phá nội bộ ban đầu. Và như thường lệ, nếu chúng tôi quyết định triển khai các tính năng mới, chúng tôi sẽ dành thời gian để đảm bảo rằng chúng hữu ích cho mọi người và được thiết kế để bảo vệ quyền riêng tư và an toàn của người dùng như là ưu tiên hàng đầu của chúng tôi.”

Trên thực tế, Google thường giết chết nhiều ý tưởng hơn là hiện thực hóa chúng. Chỉ cần nhìn vào “nghĩa địa quên lãng” của Google, chúng ta có thể thấy được điều này. Vì vậy vẫn quá sớm để kết luận về tính khả thi của dự án Ellmann.

Kể cả khi dự án được hiện thực hóa, nếu là bạn, bạn có sẵn sàng cho chatbot toàn quyền truy cập vào hình ảnh và lịch sử duyệt web hay không?

>>Xem thêm: Chúng ta đã tìm kiếm gì nhiều nhất trong năm 2023? 

Khám phá thêm
Temu, một ứng dụng mua sắm Trung Quốc, đang gây chấn động trên internet với những sản phẩm rất rẻ....
“Chúng ta đang sống trong thế giới VUCA” – Câu nói này đã diễn tả đúng tình trạng thế giới...
Trong bài viết này, Techie sẽ giới thiệu đến bạn bản chất của tính năng constraints và auto-layout figma, cũng...
Theo một “nguồn tin mật” cho hay, Ghibli chính thức công bố trailer phần tiếp theo của tựa phim Vùng...
Thuật toán Dijkstra là một công cụ quan trọng trong lý thuyết đồ thị và tối ưu hóa. Với khả...
Nếu như các ứng dụng hẹn hò như Tinder, Okcupid, Facebook Dating vẫn chưa đem đến cho bạn một anh...
Cảm biến sinh học (Biosensor) đã đánh dấu một thành tựu quan trọng trong cuộc chiến chống đại dịch COVID-19 khi...
Thời gian gần đây, công nghệ AI đang trở thành chủ đề được nhân loại đặc biệt quan tâm. Trên...