AI nay đã có thể biến hình ảnh thành âm thanh?

Từ việc chiến thắng cuộc thi vẽ tranh đến tham gia cuộc họp tại Thượng viện Anh, gần đây, AI đang đưa chúng ta từ bất ngờ này đến bất ngờ khác. Và ở diễn biến mới nhất, AI nay đã có thể biến âm thanh thành hình ảnh, vừa ngược lại!

Việc làm nhạc bằng AI vốn đã là một ý tưởng đủ điên rồ, nhưng Riffusion lại đưa ý tưởng này lên một tầm cao mới bằng việc sáng tác nhạc với đủ thứ âm sắc, nhưng không dùng âm thanh, mà lại dùng hình ảnh của âm thanh. 

Nghe có vẻ lạ, đúng không? Thì đúng là vậy đó, ý tưởng này hoàn toàn lạ. Nhưng dự án này cũng có khả năng được triển khai thành công (ở một mức độ nào đó).

Diffusion là một kĩ thuật Machine Learning được sử dụng để tạo ra hình ảnh bằng AI nổi bật trong năm qua. DALL-E 2 và Stable Diffusion là một trong những mô hình cao cấp nhất, tiêu biểu nhất cho hoạt động này, bằng cách thay thế âm thanh bằng những hình thù mà AI “nghĩ” là âm thanh “nhìn” sẽ như vậy.

Seth Forsgren và Hayk Martiros đã thực hiện dự án không tưởng trên bằng ảnh phổ (spectrograms).

“Hayk và tôi có một ban nhạc nhỏ, và chúng tôi bắt đầu thực hiện dự án này bởi vì chúng tôi yêu âm nhạc và tò mò rằng liệu Stable Diffusion có thể tạo một ảnh phổ với đủ điều kiện để biến thành âm nhạc hay không”, Seth nói. “Ở tất cả mọi bước của quy trình, chúng tôi ngay càng ấn tượng bởi những gì AI có thể làm được. Và ý tưởng cứ thể nảy ra.”

Ảnh phổ là những dải màu của âm thành được dùng để chỉ biên độ của các tần số khác nhau thay đổi theo thời gian, ví dụ như hình dưới:

ai-bien-hinh-anh-thanh-am-thanh-voi-anh-pho
AI biến hình ảnh thành âm thanh của bài hát Marconi’s Radio với ảnh phổ. Ảnh: Devin Coldewey

Qua hình ảnh trên, bạn có thể nhìn thấy âm lượng tăng dần ở từng tần suất khi bài hát đi đến đoạn cao trào, và bạn có thể xác định cả những nốt nhạc/ loại nhạc cụ cụ thể. Quy trình này tuy chưa được tinh chỉnh một cách hoàn hảo, nhưng là cách trực quan hoá âm thanh một cách chính xác nhất. Và bạn cũng có thể biến các hình ảnh này thành âm thanh theo cách tương tự.

Forsgren và Martiros đã thực hiện dải quan phổ với nhiều thể loại âm nhạc khác nhau và đính kèm các hình ảnh trả về bằng các tag liên quan như “blues guitar,” “jazz piano,” “afrobeat”. Bằng cách này, họ đã huấn luyện cho mô hình này biết các âm thanh cụ thể thường sẽ “nhìn” như thế nào và cách hệ thống này có thể tái tạo hoặc kết hợp chúng.

Tuy nhiên, với kết quả trả về chỉ là một ảnh phổ kích thước nhỏ (512 x 512 pixels, kích thước phân giải tiêu chuẩn của Stable Diffusion) chỉ có thể được chuyển hoá thành một đoạn âm thanh rất ngắn, một bài hát 2 phút sẽ đòi hỏi dải ảnh phổ có kích thước lớn hơn nhiều. 

ai-bien-am-thanh-saxophone-thanh-hinh-anh
AI biến âm thanh saxophone thành hình ảnh. Ảnh: Seth Forsgren / Hayk Martiros

Sau khi thử nghiệm một vài thứ, họ quyết định tận dụng mô hình cơ bản Stable Diffusion, với rất nhiều “khoảng trống ngầm”. “Khoảng trống ngấm” là khu vực chưa ai chạm tới, nằm giữa những khu vực đã được xác định kĩ hơn. Ví dụ, nếu bạn có một khu vực để vẽ mèo, một khu vực khác để vẽ chó, thì “khoảng trống ngầm” là nơi ở giữa. Tại đây, nếu bạn yêu cầu AI vẽ, thì AI sẽ vẽ ra một con vật hình thù lai chó – mèo, mặc dù trên thực tế thì không có loài vật nào như vậy.

“Thực ra chúng tôi chưa thử sáng tác các bài hát 3 phút cơ bản với phần điệp khúc lặp lại như thường thấy,” Forsgren nói. “Tôi nghĩ rằng điều này hoàn toàn có thể với nhiêu fthur thuật như xây dựng một mô hình với mức cao hơn cho cấu trúc bài hát, và dùng những mô hình với mức độ thấp hơn cho từng clip nhỏ hơn. Thay vào đó, bạn cũng có thể huấn luyện mô hình với hình ảnh có độ phân giải cao hơn, có khả năng chứa toàn bộ bài hát.”

cac-am-thanh-khac-nhau-duoc-ai-bien-thanh-hinh-anh
Các âm thanh khác nhau được AI biến thành hình ảnh. Ảnh: Hayk Martiros

Vậy sáng kiến này sẽ dẫn đến đâu? Các nhóm khác đã nỗ lực tạo ra âm nhạc bằng AI theo nhiều cách khác nhau, từ việc sử dụng mô hình âm thanh giả lập đến những mô hình được huấn luyện đặc biệt như Dance Diffusion.

“Từ sáng kiến này, chúng ta có thể đi đến nhiều sáng kiến tuyệt vời hơn. Đã có rất nhiều người đã bắt đầu thực hiện các dự án khác dựa trên code của chúng tôi. Một trong những thứ tuyệt vời về cộng đồng Stable Diffusion là cách người ta có thể sáng tạo trên nguồn tài nguyên có sẵn theo cách mà các tác giả không thể nào dự đoán trước.”

Bạn cũng có thể thử trải nghiệm này tại Riffusion.com, nhưng bạn sẽ phải đợi một lúc lâu để xuất clip. Code của Riffusion cũng sẵn có tại đây, cho bạn thoải mái “táy máy” nhé!

Khám phá thêm
Temu, một ứng dụng mua sắm Trung Quốc, đang gây chấn động trên internet với những sản phẩm rất rẻ....
“Chúng ta đang sống trong thế giới VUCA” – Câu nói này đã diễn tả đúng tình trạng thế giới...
Trong bài viết này, Techie sẽ giới thiệu đến bạn bản chất của tính năng constraints và auto-layout figma, cũng...
Theo một “nguồn tin mật” cho hay, Ghibli chính thức công bố trailer phần tiếp theo của tựa phim Vùng...
Thuật toán Dijkstra là một công cụ quan trọng trong lý thuyết đồ thị và tối ưu hóa. Với khả...
Nếu như các ứng dụng hẹn hò như Tinder, Okcupid, Facebook Dating vẫn chưa đem đến cho bạn một anh...
Cảm biến sinh học (Biosensor) đã đánh dấu một thành tựu quan trọng trong cuộc chiến chống đại dịch COVID-19 khi...
“Nói Việt Nam không có văn hóa riêng do sao chép từ Trung Quốc chẳng khác gì nói Nhật Bản...