AI sẽ thay đổi cách chúng ta lắng nghe thế giới?!

24/06/2024

Techie.vn

Khi Apple ra mắt tai nghe AirPod Pro vào năm 2019, nhà Táo đã gieo mầm cho một cuộc cách mạng âm thanh AI. Với việc sử dụng công nghệ xử lý âm thanh theo thời gian thực dựa trên AI, cách chúng ta lắng nghe thế giới sẽ thay đổi. Cùng Techie làm rõ hơn ngay sau đây!

Không đơn giản chỉ là vấn đề ngăn chặn tiếng ồn, công nghệ của Apple đã tái tạo âm thanh của chúng ta thành một phiên bản tổng hợp của thế giới thực. Nhìn nhận một cách tinh tế, sự thay đổi này giúp chúng ta có thể vừa đi dạo trên phố và nghe nhạc trong khi vẫn hòa mình với thế giới xung quanh.

Với tính năng “Conversation Boost“, hệ thống có thể khuếch đại các âm thanh mà người dùng muốn nghe (ví dụ: giọng nói của bạn bè), đồng thời tắt hoặc giảm âm lượng của tất cả những âm thanh khác. Điều này đã mở ra cơ hội để các công ty công nghệ đưa ý tưởng âm thanh tổng hợp của AirPod Pro vượt xa hơn cả những giấc mơ khoa học viễn tưởng từng hình dung.

Một hiện thực mới về âm thanh

“Âm thanh là phương tiện cơ bản để thông qua đó chúng ta nhận thức môi trường xung quanh,” nhà nghiên cứu Shyam Gollakota ở Seattle nhận định. “Tuy nhiên, ngày nay chúng ta bị bao quanh bởi một mớ hỗn độn âm thanh, và điều này có thể khiến các giác quan trở nên quá tải. Điều chúng tôi đang làm là xây dựng các hệ thống nghe thông minh, giúp con người có thể lựa chọn về âm thanh mà họ muốn nghe thấy trong môi trường thực tế.

Gollakota đang dẫn dắt nhóm phát triển trí tuệ di động (Mobile intelligence) tại Trường Khoa học Máy tính & Kỹ thuật Paul G. Allen của Đại học Washington. Được biết, Gallakota và nhóm của mình đã nghiên cứu về việc tăng cường khả năng thính giác của con người trong thời gian thực hơn 4 năm qua.

Tùy chọn âm thanh trong thời gian thực — *Thiết bị tai nghe cho phép tùy chọn âm thanh trong thời gian thực*

Mục tiêu của nhóm là lập trình sản phẩm mà Gallakota gọi là “cảnh âm thanh trong thời gian thực” (acoustic scenes in real time). Khi nói về deep learning và AI, điều phổ biến nhất là các giao diện dựa trên trò chuyện. Tuy nhiên, thứ mà nhóm nghiên cứu hướng đến là thiết kế các phương pháp học sâu trong thời gian thực để lập trình môi trường âm thanh.

Năm 2022, nhóm của Gollakota đã phát minh ra một thiết bị gọi là Clearbuds, giúp mọi người có thể trò chuyện rõ ràng hơn trên Zoom. Năm 2023, họ phát triển ra thiết bị Semantic Hearing, cho phép người dùng tùy chọn những âm thanh cụ thể họ muốn nghe. Chẳng hạn, khuếch đại tiếng chim hót trong công viên nhưng chặn tiếng người nói chuyện gần đó. Vừa mới tháng trước, họ đã ra mắt một sản phẩm gọi là Target Speech Hearing, cho phép người đeo tai nghe chọn một người nói cụ thể trong môi trường xung quanh chỉ bằng cách nhìn vào người đó, âm thanh của mọi thực thể khác xung quanh sẽ bị tắt đi.

Hãy thử hình dung, bạn cùng một người khác đang đi dạo và trò chuyện trên một con phố đông đúc. Sẽ thật tuyệt nếu bạn có một chiếc tai nghe để tập trung vào giọng nói của bạn mình thay vì bị pha lẫn với những tạp âm xung quanh!

Khoa học đằng sau việc lắng nghe có mục tiêu

Để đạt được mục tiêu này, nhóm của Gollakota đã phát triển một phần mềm xử lý với mức độ thông minh cao, có khả năng nhận diện đồng thời tất cả các âm thanh trong môi trường. Từ đó, hệ thống sẽ tách biệt âm thanh mục tiêu ra khỏi tất cả tiếng ồn gây nhiễu.

Sự chậm trễ giữa việc nhìn và nghe thấy có thể gây ra cảm giác mất phương hướng. Do đó, các thuật toán thần kinh của công nghệ này buộc phải xử lý âm thanh trong thời gian thực dưới 1% giây. Trong bài báo nghiên cứu của nhóm, họ đã chứng minh tính khả thi về việc làm cho mạng lưới thần kinh đủ nhỏ để nhúng trực tiếp vào tai nghe. Điều này giúp cắt giảm thời gian phản hồi xuống mức tối thiểu để nó có thể hoạt động trong thời gian thực với khả năng tính toán và pin rất hạn chế. Đây là điều mà các công nghệ tai nghe hiện tại vẫn chưa đạt được.

Gallakota cho biết nhóm sẽ công bố mã nguồn để các nhà nghiên cứu khác cũng có thể phát triển ý tưởng dựa trên đó.

Nói chung, việc tùy chọn âm thanh mặc dù mang đến nhiều lợi ích, tuy nhiên nó cũng có thể khiến chúng ta giảm kết nối thông tin và trải nghiệm với thế giới xung quanh.

>>Xem thêm: Nanobot: Bí quyết giúp con người sống qua ngưỡng 120 tuổi?

# tai nghe AI
# xử lý âm thanh

Khám phá thêm