Giọng nói con người có gì đặc biệt mà AI không thể sao chép?

25/12/2024

Techie.vn

Các công cụ AI tổng hợp giọng nói giờ đây không chỉ trả lời các câu hỏi một cách lưu loát mà còn có thể giả giọng, tạo cảm giác đồng cảm, và thậm chí bắt chước cả tiếng thở. Tuy nhiên, điều này cũng đặt ra câu hỏi lớn: liệu có cách nào để phân biệt giọng nói con người với giọng nói do AI tạo ra? Cùng Techie tìm hiểu nhé!

*Liệu công nghệ AI có thể thay thế hoàn toàn giọng nói con người?*

Công nghệ tổng hợp giọng nói AI là bước tiến đột phá

Hiện nay, các chatbot AI không chỉ phản hồi qua văn bản mà còn có thể trả lời bằng giọng nói. Một số nền tảng AI, chẳng hạn như ChatGPT, đã tích hợp khả năng tạo giọng nói với những đặc điểm gần giống con người, như nhấn nhá, thay đổi âm điệu, và biểu đạt cảm xúc. Công nghệ này còn hỗ trợ nhiều ngôn ngữ và thậm chí tái tạo được các giọng địa phương khác nhau.

Đáng chú ý, các công cụ sao chép giọng nói bằng AI có thể tái hiện giọng của một người thật chỉ sau vài giây thu âm. Một ví dụ điển hình là việc sử dụng AI để tái tạo giọng của Sir Michael Parkinson, một phát thanh viên nổi tiếng người Anh, cho một loạt podcast. Ngược lại, Sir David Attenborough lại cảm thấy “rất lo ngại” khi giọng của ông bị AI giả mạo để phát ngôn những điều ông chưa từng nói.

Nguy cơ từ việc lạm dụng công nghệ

Khả năng tái tạo giọng nói không chỉ mang lại lợi ích mà còn tiềm ẩn nhiều rủi ro. Một số trường hợp đã ghi nhận việc sử dụng giọng nói giả để lừa đảo, chẳng hạn như tạo cuộc gọi giả mạo người thân để chiếm đoạt tiền. Gần đây, một vụ lừa đảo đã tái hiện giọng của một CEO nổi tiếng để yêu cầu chuyển tiền. Mặc dù không thành công, vụ việc đã gióng lên hồi chuông cảnh báo về mức độ nguy hiểm của công nghệ này.

Theo Jonathan Harrington, giáo sư âm vị học tại Đại học Munich, mặc dù công nghệ tổng hợp giọng nói đã tiến rất xa, vẫn có những dấu hiệu giúp phân biệt giữa giọng thật và giọng do AI tạo ra. Những yếu tố như ngữ điệu, nhấn nhá trong câu, và cách ngắt nhịp có thể là manh mối quan trọng.

Ví dụ, con người thường nhấn mạnh các từ để truyền tải ý nghĩa cụ thể trong ngữ cảnh đối thoại. Một câu như “Marianna made the marmalade” có thể mang ý nghĩa khác nhau tùy vào từ được nhấn mạnh. Ngoài ra, việc điều chỉnh cao độ giọng nói (intonation) hay cách chia cụm từ (phrasing) cũng là yếu tố giúp giọng nói con người trở nên tự nhiên hơn.

Cách phân biệt giữa giọng AI và giọng người

Trong một thí nghiệm thú vị, nhóm nghiên cứu đã yêu cầu một chuyên gia AI tại Đại học New York tạo hai đoạn âm thanh, một do con người đọc và một do AI tổng hợp. Kết quả thật bất ngờ khi khoảng một nửa số người tham gia không thể phân biệt được đâu là giọng thật, đâu là giọng giả. Điều này cho thấy khả năng bắt chước giọng nói của AI đã tiến đến mức gần như không thể nhận ra.

Tuy nhiên, các chuyên gia như Steve Grobman, Giám đốc Công nghệ tại McAfee, cho rằng việc lắng nghe các yếu tố như nhịp thở, âm điệu không tự nhiên, hoặc các lỗi nhỏ trong phát âm có thể là cách để nhận biết. Nhưng ngay cả các chuyên gia cũng phải đối mặt với thách thức khi công nghệ ngày càng tinh vi.

Ngoài ra, các công cụ phát hiện giọng nói giả cũng đang được phát triển. ElevenLabs, công ty tạo ra phần mềm sao chép giọng nói, đã cung cấp công cụ phát hiện âm thanh AI miễn phí. McAfee cũng hợp tác với các nhà sản xuất máy tính lớn để tích hợp phần mềm này vào các thiết bị mới.

Điều gì làm nên sự độc đáo của giọng nói con người?

*Điểm mạnh của con người so với AI vẫn luôn là cảm xúc*

Ngữ điệu và nhấn nhá theo ngữ cảnh

Một trong những yếu tố đặc trưng nhất của giọng nói con người là cách nhấn mạnh từ ngữ trong câu. Chẳng hạn, trong câu hỏi “John đã đọc cuốn sách ‘Hard Times’ chưa?”, câu trả lời “John không thích Dickens” sẽ nhấn mạnh từ “không thích” để làm rõ ý nghĩa.
AI có thể bắt chước ngữ điệu này, nhưng việc điều chỉnh theo ngữ cảnh đòi hỏi sự hiểu biết sâu sắc về bối cảnh văn hóa và xã hội – điều mà AI vẫn còn hạn chế.

Phrasing – Cách phân câu

Con người thường tự nhiên ngắt câu để truyền tải ý nghĩa. Ví dụ, câu “Khi gặp nguy hiểm, trẻ em gọi cảnh sát” sẽ mang ý nghĩa khác hẳn so với “Khi gặp nguy hiểm trẻ em, hãy gọi cảnh sát”. AI hiện nay vẫn gặp khó khăn khi xử lý những trường hợp này, đặc biệt trong giao tiếp phức tạp.

Hơi thở và sự tự nhiên

Những tiếng thở nhẹ, ngập ngừng, hoặc các lỗi nhỏ như vấp từ là những đặc trưng của giọng nói con người. Đây là yếu tố mà AI, dù được lập trình tinh vi, vẫn khó lòng tái tạo một cách tự nhiên. Những lỗi nhỏ này chính là dấu hiệu để phân biệt giữa giọng nói thật và nhân tạo.

Biểu cảm

Giọng nói con người không chỉ mang thông điệp mà còn chứa đựng cảm xúc, từ sự vui vẻ, buồn bã, giận dữ đến đồng cảm. AI có thể giả lập cảm xúc, nhưng nó không thể “cảm thấy” thực sự, khiến giọng nói đôi khi thiếu chiều sâu.

Xem thêm: Công ty AI Artisan gây tranh cãi với chiến dịch quảng cáo “Ngừng tuyển con người”

# ai
# artificial intelligence

Khám phá thêm