Điều khiển thiết bị điện tử bằng giọng nói

Ra lệnh cho điện thoại

Theo người đại diện của tập đoàn công nghệ Nuance Communications, vào tháng12/2009, lần đầu tiên họ đã ra mắt phần mềm Dragon Dictation tại Mỹ với chức năng chính là cho phép người sử dụng dùng lời nói để soạn tin nhắn, email trên điện thoại iPhone của hãng Apple nhanh gấp 5 lần cách soạn tin nhắn bằng tay. Từ đó cho đến nay, phần mềm này được Nuance Communications đưa lên kho ứng dụng Apple App Store để người dùng iPhone download về dùng miễn phí. Và mới đây, ngày 19/7/2012, Nuance Communications cũng đã chính thức giới thiệu phần mềm nàyvà phần mềm Dragon Searchtại Việt <_st13a_place w:st="on">Nam cũng với hình thức cho sử dụng miễn phí.

Về cơ bản, tính năng của Dragon Search tương tự như Dragon Dictation, nó cũng nhận diện giọng nói nhưng kèm theo là các chương trình tìm kiếm, thay vì các chương trình nhận nội dung tin nhắn hoặc email. Theo chia sẻ của Nuance Communications, ban đầu các ứng dụng này được tạo ra để phục vụ cho nhu cầu ghi dữ liệu bằng giọng nói của các bác sĩ ở một bệnh viện ở Mỹ; chính vì vậy, thời lượng nhận diện giọng nói của 2 phần mềm này mới chỉ dừng lại ở khoảng thời gian tối đa là 60 giây.

Trước đó, nhóm nghiên cứu của phòng thí nghiệm AILab thuộc Trường đại học khoa học tự nhiên TP.HCM đã ra mắt phần mềm iSago 1.0 chạy trên điện thoại iPhone cho phép người dùng tìm kiếm thông tin về các nhà hàng, quán bar, cà phê, địa điểm giải trí trên địa bàn TP.HCM bằng cách ra lệnhtìm kiếm (ví dụ: “Tôi muốn ăn phở tại quận 1”) cho điện thoại “nghe” và nhận ngay kết quả sẽ được thể hiện trên bản đồ điện tử hoặc liệt kê như các trang web tìm kiếm. Ngoài ra, kết quả còn được đọc và phát ra loa điện thoại cho người nghe.

Thực ra công nghệ nhận diện giọng nói đã được Microsoft và một số hãng sản xuất phần mềm trên thế giới đưa vào Windows, bộ Microsoft Offi ce chạy trên máy tính từ nhiều năm trước, tuy nhiên chúng chỉ mới nhận dạng được tiếng Anh và độ chính xác chưa cao, cũng như mất nhiều thời gian "huấn luyện" cho phần mềm quen với giọng người dùng. Tuy nhiên, công nghệ nhận dạng giọng nói được nhiều người dùng biết đến từ khi iPhone 4 ra đời có tích hợp phần mềm Siri cho phép người dùng tìm kiếm thông tin bằng giọng nói.

Mặc dù hiện tại các phần mềm nhận dạng giọng nói mới chỉ chạy được trên hệ điều hành iOS trong các sản phẩm của hãng Apple, tuy nhiên theo đại diện của Trường đại học khoa học tự nhiên TP.HCM và tậpđoàn Nuance Communications thì công nghệ này được phát triển theo nền tảng mở nên hoàn toàn có thể tạo ra ứng dụng tương tự để chạy trên các sản phẩm xài hệ điều hànhAndroid. Cụ thể, theo tiết lộ của AILab, một nhà mạng di động ở Việt Nam đã hợp tác với Trường đại học khoa học tự nhiên TP.HCM để nghiên cứu và ra mắt phần mềm nhận diện giọng nói chạy trên điện thoại xài Android vào khoảng tháng 6/2013.

Khi công nghệ thay thế con người

Cũng trong dịp ra mắt phần mềm iSago, phòng thí nghiệm AILab đã giới thiệu hệ thống VIS (Viet voice System) hỗ trợ hỏi đáp thông tin bằng tiếng Việt qua đường điện thoại, sử dụng công nghệ nhận dạng và tổng hợp tiếng nói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh. Theo nhóm nghiên cứu của AILab, hệ thống này có thể thay thế được người trực tổng đài điện thoại, hoặc ứng dụng chohệ thống tra cứu điểm, số điện thoại bằng lời nói và nghe kết quả bằng lời nói. Thử nghiệm của hệ thống VIS cho thấy, dịch vụ tự động chuyển cuộc gọi <_st13a_place w:st="on">VIS:DIR chuyển được cuộc gọi từ người gọi vào yêu cầu đến chính xác phòng ban tương ứng mà không phải chờ nhân viên trực điện thoại tìm số điện thoại hoặc cho số điện thoại phòng ban.

Không dừng lại ở điện thoại, các hãng sản xuất tivi cũng đã bắt đầu ứng dụng công nghệ nhận dạng giọng nói vào các sản phẩm "tivi thông minh", đơn cử như dòng tivi Samsung ES800 có thể "nghe" được lệnh của người dùng thay cho cách dùng remote.

Theo chia sẻ của đại diện tập đoàn Nuance Communications, công nghệ nhận dạng giọng nói của họ đã được một số hãng điện tử như Samsung, LG ứng dụng vào các sản phẩm.

Để ứng dụng được công nghệ nhận dạng giọng nói, các thiết bị điện tử phải kết nối Internet để truy xuất cơ sở dữ liệu giọng nói từ một hệ thống bên ngoài thiết bị.