Công nghệ

Công nghệ [ Đăng ngày (24/11/2021) ]
Công nghiệp giọng nói của AI

Hiện nay, một làn sóng khởi nghiệp mới đang sử dụng deep learning để tạo ra những diễn viên lồng tiếng tổng hợp cho những trợ lý ảo, nhân vật trò chơi điện tử và video của công ty.
WellSaid Labs là một công ty khởi nghiệp có trụ sở tại Seattle chuyên cung cấp tiếng nói AI cho khách hàng. Họ mô tả tám diễn viên lồng tiếng kỹ thuật số mới của mình là Tobin “tràn đầy năng lượng và sâu sắc”, Paige “đĩnh đạc và biểu cảm”, Ava “thanh nhã, tự tin và chuyên nghiệp.” Dĩ nhiên, mỗi nhân vật này đều dựa trên một diễn viên lồng tiếng thực sự mà cách nói chuyện và giọng điệu của họ đã được bảo tồn trên AI. Các khách hàng giờ đây chỉ cần đưa một văn bản bất kì vào công cụ giọng nói và sẽ thu được clip âm thanh sắc nét, đậm chất tự nhiên. Một loạt công ty khởi nghiệp khác cũng đang tạo tiếng nói tự nhiên cho những trợ lý ảo (chatbot), tổng đài chăm sóc khách hàng (call centre), bài giảng điện tử (e-learning), sách nói (audiobook) và thậm chí là nhân vật trong trò chơi điện tử của mình. Cách đây không lâu, những giọng nói AI giống người như vậy đã mang tiếng xấu vì một số người dùng chúng để giả mạo cuộc gọi và lừa đảo trên Internet. Nhưng nhờ sự cải thiện chất lượng giọng nói AI, ngày càng nhiều công ty quan tâm đến ứng dụng thương mại của chúng. Giọng nói AI đã có thể tái tạo được những nét tinh tế trong lời nói của con người, từ những đoạn nhấn nhá, dừng lại lấy hơi, đến những cung bậc lên xuống hoặc phong cách nói chuyện. Công nghệ đằng sau giọng nói Giọng nói tổng hợp đã xuất hiện từ những năm 80, nhưng chúng chỉ thực sự bắt đầu giống người trong vòng 5 năm qua. Những giọng nói ban đầu của Siri, Alexa hoặc Deepmind chỉ đơn giản là dán các từ ngữ và âm thanh với nhau để đạt được hiệu ứng câu. Để giọng nói nghe có vẻ tự nhiên hơn, các kỹ sư cần làn rất nhiều nhiệm vụ thủ công công sức. Họ thậm chí thuê những chuyên gia ngôn ngữ để xác định cách mà ngôn ngữ đó được ghép lại với nhau, từ đó hướng dẫn cho máy học. Tuy nhiên, công nghệ học sâu (deep learning) đã thay đổi tất cả. Giờ đây, các nhà phát triển giọng nói không cần phải ra lệnh điều chỉnh nhịp độ, cách phát âm hoặc ngữ điệu chính xác của bài nói. Thay vào đó, họ chỉ cần đưa một vài giờ ghi âm vào một thuật toán và để thuật toán đó tự học. Các thuật toán đã “tự học” theo đúng nghĩa đen, nghĩa là chúng phát hiện ra những khuôn mẫu lặp lại trong dữ liệu đầu vào và tự tái tạo được những đặc điểm đó trong giọng nói của mình mà không cần ai can thiệp. Trên thực tế, công nghệ giọng nói AI là sự kết hợp của 3 kỹ năng khác nhau: nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và tạo giọng nói. Mỗi kỹ năng này đều đặt ra những thách thức rất lớn vì chúng gần như phải tạo lại trí thông minh ở cấp độ con người. Con người vẫn có thể phát hiện ra những thủ thuật đó nếu AI nói quá lâu, nhưng trong những clip âm thanh ngắn, một số AI đã trở nên không thể phân biệt. Dĩ nhiên, việc học của AI cũng đồng nghĩa với việc nó sẽ lặp lại các mô hình tìm thấy trong dữ liệu cũ, bao gồm cả những thiên kiến và quyết định tồi tệ mà con người đã tạo ra. Giọng nói riêng biệt Giọng nói AI đã trở nên đặc biệt phổ biến khi các thương hiệu tìm cách tiết kiệm chi phí hoặc duy trì âm thanh nhất quán trong hàng triệu lượt tương tác với khách hàng. Vì loa thông minh và những dịch vụ khách hàng có thể truy cập từ trong ô tô, thiết bị thông minh, website, platform ngày càng trở nên phổ biến nên các thương hiệu sẽ có nhu cầu sản xuất hàng trăm giờ âm thanh mỗi tháng. Ước tính thị trường toàn cầu về công nghệ giọng nói sẽ đạt gần 185 tỷ USD trong năm nay. Nhưng các hãng không còn muốn sử dụng giọng nói chung từ những công nghệ chuyển văn bản thành giọng nói truyền thống. “Nếu tôi là Pizza Hut, tôi chắc chắn không thể giống như Domino, và tôi chắc chắn không thể giống như Papa John. Những thương hiệu này đã nghĩ về màu sắc của họ, phông chữ của họ. Bây giờ họ cũng phải bắt đầu suy nghĩ về cách giọng nói của họ phát ra”, Giáo sư Rupal Patel tại Đại học Northeastern và là người sáng lập công ty khởi nghiệp VocaliD nhận xét. Trong khi các công ty từng phải thuê diễn viên lồng tiếng khác nhau cho từng thị trường thì một số công ty AI đã có thể sửa đổi giọng vùng miền hoặc ngôn ngữ của một giọng nói theo nhiều cách khác nhau. Nó mở ra khả năng điều chỉnh quảng cáo trên những nền tảng phát trực tiếp. Chẳng hạn, một quảng cáo bia phát ở New York và Bắc Kinh có thể cùng nói một thông điệp với hai chất giọng khác nhau và nhắc người nghe dừng chân tại một quán bar cụ thể gần đó. Resemble.ai, công ty thiết kế giọng nói cho quảng cáo và trợ lý thông minh ở Canada cho biết họ đang làm việc với khách hàng để tung ra các quảng cáo âm thanh được cá nhân hóa như vậy trên Spotify và Pandora. Ngành công nghiệp trò chơi và giải trí cũng đang nhìn thấy những lợi ích từ giọng nói AI. Sonantic là một công ty ở Anh chuyên về giọng nói cảm xúc (cười, khóc, thì thầm, la hét..) hiện đang làm việc với các nhà sản xuất trò chơi điện tử và hãng phim hoạt hình để cung cấp giọng nói cho nhân vật của họ. Nhiều khách hàng của startup này mới chỉ sử dụng giọng nói tổng hợp trong khâu tiền sản xuất và chuyển sang dùng diễn viên lồng tiếng thực sự cho sản phẩm cuối cùng, nhưng Sonantic cho biết một vài người đã bắt đầu sử dụng giọng nói AI với những nhân vật ít lời thoại hơn trong suốt quá trình. Sonantic cùng một số startup tương tự đang làm việc với các chương trình TV và phim ảnh để vá lại cảnh diễn mà diễn viên bị cắt xén lời thoại hoặc phát âm sai. Còn ở Mỹ, dự án nổi tiếng của Microsoft mang tên HereAfter đang hướng tới việc lưu giữ ký ức của những người thân yêu bằng cách tạo ra các phiên bản giọng nói số của những người đã mất, những người quen, người nổi tiếng hoặc một nhân vật lịch sử để chúng ta có thể trò chuyện và tương tác với họ như với một người bạn bên cạnh. AI có thể đi bao xa Nhưng hiện nay, giọng nói AI vẫn còn khó để duy trì cảm giác “thực” nếu nói trong khoảng thời gian dài, ví dụ như cho cả một quyển sách nói (audiobook) hoặc podcast. Chúng cũng chưa hiệu quả trong những tình huống đòi hỏi sự ứng biến giống như cách mà một diễn viên có thể nghe theo chỉ đạo của đạo diễn để thay đổi cung bậc cảm xúc giọng nói khi diễn những cảnh khác nhau. Zohaib Ahmed, người sáng lập của Resemble.ai, nhận xét rằng: “Chúng ta vẫn đang trong những ngày đầu của giọng nói tổng hợp”. Để so sánh, anh ví nó như công nghệ mô phỏng hình ảnh bằng máy tính (CGI) thời đầu - chỉ có thể sơn sửa những thứ nho nhỏ xung quanh và chưa tạo cảm giác ăn khớp. Giờ đây, CGI đã đạt đến mức có thể tạo ra một thế giới hoàn toàn mới chỉ từ tấm phông xanh. Sự thay đổi của công nghệ có thể diễn ra trong nhiều năm. Nói cách khác, các diễn viên lồng tiếng con người vẫn chưa biến mất. Họ vẫn cần trong những dự án dài, đầy tính biểu cảm và sáng tạo. Thêm vào đó, mỗi diễn viên lồng tiếng cũng cần cung cấp dữ liệu đào tạo ban đầu để tạo ra một giọng nói tổng hợp cho AI. Nhưng nhiều diễn viên và nhân viên công ty đang lo lắng cho sinh kế của mình. Mặc dù giọng nói của AI không hoàn hảo nhưng nó đã bắt đầu được sử dụng ở những công việc đòi hỏi ít tinh tế hơn. Nếu con người không sợ bị AI tự động hóa, họ cũng sẽ lo lắng về việc không nhận được khoản bù đắp công bằng hoặc mất quyền kiểm soát giọng nói của mình khi các công ty sử dụng chúng và ảnh hưởng đến thương hiệu, danh tiếng cá nhân của họ. Nhiều năm trước đó, Susan Bennett, giọng nói ban đầu của Siri cũng chia sẻ rằng cô đã bất ngờ khi nghe một người bạn nói về giọng nói của cô trong smartphone. Rõ ràng, Apple đã không đánh cắp giọng nói của Susan Bennett vì cô đã làm công việc lồng tiếng trong nhiều thập kỷ và để lại nhiều bản ghi âm kì lạ thúc đẩy sự phát triển của Siri. Bennett đã được trả tiền cho những bản ghi âm ban đầu, nhưng không được chi trả cho việc tiếp tục sử dụng giọng nói đó trên hàng triệu thiết bị Apple sau này. Giờ đây, một số công ty đang tìm cách tiếp cận công bằng hơn khi tham gia vào ngành công nghiệp giọng nói. Một số hiện đang sử dụng mô hình chia sẻ lợi nhuận để trả tiền cho các diễn viên mỗi khi khách hàng được cấp phép sử dụng giọng nói tổng hợp của họ. Nhiều nghiệp đoàn cũng đang thúc đẩy luật pháp để bảo vệ con người khỏi các bản sao bất hợp pháp giọng nói đó.
lqnhu Theo khoahocphattrien.vn

In bài viết

Tin tiếp theo

Công nghệ mới

Vượt qua keo dán xu hướng chuyển dịch sang hệ thống động học cơ điện tử tất định

Trong nhiều thập kỷ, các dây chuyền lắp ráp công nghiệp tốc độ cao đã phụ thuộc vào keo nóng chảy, chất kết dính hóa học và băng dán gia cường như những giải pháp mặc định để đảm bảo tốc độ và độ bền mối ghép. Nhưng khi áp lực kinh tế và quy định về kinh tế tuần hoàn ngày càng siết chặt, ngành sản xuất đang chạm đến giới hạn của các giải pháp "dính" này — và bắt đầu nhìn về hướng động học cơ điện tử.

Giải pháp kỹ thuật giảm thiểu mài mòn trong hệ thống băng tải vật liệu rời

Vượt qua giới hạn Mô-men xoắn trong thiết bị thi công nền móng cỡ nhỏ

Triển lãm Nhà máy thông minh Việt Nam 2026: Điểm hẹn công nghệ cho kỷ nguyên sản xuất mới

Doanh nghiệp Tư Sang Cái Bè hướng đến phát triển cơ khí nông nghiệp công nghệ cao

Video

Điện thoại thông minh AI của OpenAI

Điểm tin Khoa học và Công nghệ tuần 16
Điểm tin Khoa học và Công nghệ tuần 16

Thương mại điện tử xuyên biên giới: Mở "đường băng" mới cho hàng Việt
Thương mại điện tử xuyên biên giới: Mở "đường băng" mới cho hàng Việt

OpenAI GPT 5.5 mới là một loại trí tuệ hoàn toàn mới
OpenAI GPT 5.5 mới là một loại trí tuệ hoàn toàn mới

Agent Swarms - Một trong những hệ thống trí tuệ nhân tạo mạnh mẽ nhất hiện nay.
Agent Swarms - Một trong những hệ thống trí tuệ nhân tạo mạnh mẽ nhất hiện nay.

Mở đường cho công nghệ sinh học bứt phá thành ngành kinh tế - kỹ thuật trọng yếu
Mở đường cho công nghệ sinh học bứt phá thành ngành kinh tế - kỹ thuật trọng yếu

Minh bạch thị trường từ chuẩn chất lượng sản phẩm
Minh bạch thị trường từ chuẩn chất lượng sản phẩm

Mở cửa thị trường bằng “hộ chiếu số”

Mở cửa thị trường bằng “hộ chiếu số”

Nghiên cứu
Tự nhiên
Nông-Lâm-Ngư
Xã hội-Nhân văn

Công nghệ
Cơ khí chế tạo
Môi trường
Sức khỏe

Thông tin
Tin học
Điện tử
Truyền thông

Kinh tế - Xã hội
Đời sống
Pháp luật
Kinh doanh

Sở hữu trí tuệ
Hoạt động
Văn bản
SHTT và Cuộc sống

Năng lượng
Thành tựu mới
Văn bản
Sản phẩm xanh

Chợ công nghệ
Sự kiện
Chào bán
Tìm mua

Ứng dụng
Công nghiệp
Nông nghiệp
Xây dựng

Hợp tác
Trong nước
Quốc tế
Địa phương

Giải trí
Đố vui khoa học
Xe
Thể thao

Địa chỉ: 118/3 Trần Phú - Phường Cái Khế - thành phố Cần Thơ
Giấy phép số: 05/ GP-TTĐT, do Sở Thông tin và Truyền Thông thành phố Cần Thơ cấp ngày 23/5/2017
Trưởng Ban biên tập: Ông Vũ Minh Hải - Giám đốc Trung tâm Khởi nghiệp và Đổi mới sáng tạo - Sở Khoa học & Công nghệ TP. Cần Thơ
Ghi rõ nguồn www.trithuckhoahoc.vn khi bạn sử dụng lại thông tin từ website này

Lượt truy cập:

Họ tên	(*) Vui lòng nhập họ tên
Đơn vị công tác
Email	(*) Vui lòng nhập địa chỉ email
Mã xác nhận	Nhập mã được hiển thị ở hộp dưới đây (*)
Nội dung	(*)
Chú ý: (*) bắt buộc nhập.

© Copyright 2020 Trung tâm Khởi nghiệp và Đổi mới sáng tạo - Sở Khoa học và Công nghệ TP. Cần Thơ

Vượt qua keo dán xu hướng chuyển dịch sang hệ thống động học cơ điện tử tất định

Giải pháp kỹ thuật giảm thiểu mài mòn trong hệ thống băng tải vật liệu rời

Vượt qua giới hạn Mô-men xoắn trong thiết bị thi công nền móng cỡ nhỏ

Triển lãm Nhà máy thông minh Việt Nam 2026: Điểm hẹn công nghệ cho kỷ nguyên sản xuất mới

Doanh nghiệp Tư Sang Cái Bè hướng đến phát triển cơ khí nông nghiệp công nghệ cao

Tiêu điểm

Bộ não bị lão hóa nhanh là do ảnh hưởng từ 64 gene

Ứng dụng di động hỗ trợ phục hồi chức năng liệt nửa người do đột quỵ

Đại học Harvard công bố 4 loại trái cây giúp hỗ trợ sống 'trường thọ' nên ăn thường xuyên

Can thiệp bào thai bằng Laser đốt thông nối mạch máu, giảm ối cứu sống thành công 2 trẻ song sinh cực non

Lần đầu tiên BV hữu nghị Việt Nam-Cuba Đồng Hới ứng dụng keo dán sinh học trong phẫu thuật mắt

Hội thảo “Thúc đẩy ứng dụng công nghệ thực tế ảo, thực tế ảo tăng cường phục vụ phát triển du lịch thành phố Cần Thơ và vùng đồng bằng sông Cửu Long” sắp diễn ra, với nhiều nội dung hấp dẫn đang chờ đón bạn!

Cần Thơ tham gia Triển lãm Quốc tế sản phẩm, máy móc, thiết bị nông nghiệp Việt Nam - Growtech Vietnam 2024

Sắp diễn ra Triển lãm Quốc tế sản phẩm, máy móc, thiết bị nông nghiệp Việt Nam - Growtech Vietnam 2024

Phát hiện cơn đau bằng AI

Máy tiêm laser cung cấp thuốc trực tiếp

Thiết bị AI Audiologist sàng lọc thính lực

Liệu pháp điều trị loét bàn chân do tiểu đường

Tai nghe laser mới có thể đánh giá nguy cơ đột quỵ

Sử dụng hình ảnh 3D để tái chế rác thải nhựa

Mô hình robot mới đưa ra giải pháp chọn và đặt chính xác trong ứng dụng tự động hóa

Xem nhiều

Video

Điểm tin Khoa học và Công nghệ tuần 16

Thương mại điện tử xuyên biên giới: Mở "đường băng" mới cho hàng Việt

OpenAI GPT 5.5 mới là một loại trí tuệ hoàn toàn mới

Agent Swarms - Một trong những hệ thống trí tuệ nhân tạo mạnh mẽ nhất hiện nay.

Mở đường cho công nghệ sinh học bứt phá thành ngành kinh tế - kỹ thuật trọng yếu

Minh bạch thị trường từ chuẩn chất lượng sản phẩm

Minh bạch thị trường từ chuẩn chất lượng sản phẩm

Mở cửa thị trường bằng “hộ chiếu số”

Nghiên cứu

Công nghệ

Thông tin

Xã hội

Ứng dụng

Vũ trụ

Sở hữu trí tuệ

Năng lượng

Hợp tác

Sức khỏe

Đời sống

Thiên nhiên

Tiêu điểm

Xem nhiều

Điểm tin Khoa học và Công nghệ tuần 16

Thương mại điện tử xuyên biên giới: Mở "đường băng" mới cho hàng Việt

OpenAI GPT 5.5 mới là một loại trí tuệ hoàn toàn mới

Agent Swarms - Một trong những hệ thống trí tuệ nhân tạo mạnh mẽ nhất hiện nay.

Mở đường cho công nghệ sinh học bứt phá thành ngành kinh tế - kỹ thuật trọng yếu

Minh bạch thị trường từ chuẩn chất lượng sản phẩm

Minh bạch thị trường từ chuẩn chất lượng sản phẩm

Mở cửa thị trường bằng “hộ chiếu số”

© Copyright 2020 Trung tâm Khởi nghiệp và Đổi mới sáng tạo - Sở Khoa học và Công nghệ TP. Cần Thơ