Những ứng dụng nhận dạng giọng nói sáng giá cho Windows

Công nghệ - Ngày đăng : 09:33, 13/02/2014

Ứng dụng nhận dạng giọng nói thường dùng để ra lệnh cho máy tính và nhập văn bản không cần bàn phím, nhưng cũng có thể còn một công dụng khác khá thú vị: nói chuyện với người khiếm thính! Tuy bước đầu không tránh khỏi vấp váp nhưng cũng đáng thử, thay cho bút đàm quá chậm chạp và mệt mỏi.

1. Windows Speech Recognition

Windows Speech Recognition được cài đặt sẵn trong phiên bản mới của Windows, bao gồm Vista, 7 và 8, nghĩa là bạn không phải tốn tiền mua.

Để làm việc với Windows Speech Recognition, bạn vào menu Start và gõ speech recognition vào hộp tìm kiếm (bạn cũng có thể truy cập các tính năng này thông qua Control Panel). Bấm vào tùy chọn xuất hiện, một cửa sổ sẽ mở ra, nơi bạn có thể kích hoạt tính năng, sau đó thực hiện đọc một văn bản ngắn để cho Windows nhận biết về ngôn ngữ cũng như chất giọng của bạn. Sau khi tất cả mọi thứ được thiết lập, một hộp trạng thái nhỏ xuất hiện, là nơi bạn tiến hành bật và tắt tính năng Speech Recognition.

Để bắt đầu, chỉ cần nói rõ ràng vào microphone cụm từ “start listening”. Ứng dụng sẽ phản hồi bằng một tiếng bíp và hoạt động, chờ đợi lệnh tiếp theo của bạn. Bạn có thể nói để ra lệnh cho Windows Speech Recognition làm bất cứ điều gì trên máy tính như mở trình duyệt (bao gồm cả các tab mới), các ứng dụng, soạn thảo tài liệu Microsoft Office. Sau khi đã mở cửa sổ soạn thảo tài liệu, bạn có thể đọc để bắt đầu ghi lại văn bản thay vì gõ phím.

Bạn cũng có thể tắt máy tính hoặc khởi động lại bằng giọng nói, cũng như mở trình đơn bắt đầu hoặc một cửa sổ dòng lệnh. Khi kết thúc, bạn chỉ cần nói “stop listening”, và nó sẽ vào trạng thái ngủ, chờ đợi cho bạn đánh thức ở phiên làm việc sau.

Thật dễ dàng để sử dụng, nhưng Windows Speech Recognition cần phải có một số cải tiến trong khả năng nhận dạng ngôn ngữ khác ngoài tiếng Anh như Đức, Pháp...

2. Google Voice Search

Người sử dụng Chrome có thể thấy một microphone nhỏ ở bên phải của thanh tìm kiếm trong Google, đó là Google Voice Search.

Công cụ nhận dạng giọng nói của Google hiện bao gồm các công cụ tìm kiếm và một dịch vụ dịch thuật (chỉ dành cho iOS). Google Voice Search chỉ có sẵn trên trình duyệt Google Chrome, hoạt động trên nhiều nền tảng hệ điều hành khác nhau.

Sau khi bắt đầu sử dụng Chrome, hãy vào trang web chính của Google tại https://www.google.com/. Nếu đã có một microphone thiết lập trên máy tính của bạn (tai nghe hoặc webcam), hãy bấm vào biểu tượng microphone. Lần đầu tiên, chương trình sẽ yêu cầu bạn cấp cho Google quyền truy cập microphone của mình. Sau đó, bạn sẽ được yêu cầu nói thuật ngữ tìm kiếm của mình. Công cụ nhận ra giọng nói gần như ngay lập tức, và những gì mà bạn tìm kiếm sẽ xuất hiện trên màn hình một cách nhanh chóng, không cần phải bấm chuột.

Thuật toán nhận dạng giọng nói của Google là khá tốt, dù thuật ngữ tìm kiếm của bạn sử dụng bằng thứ khác tiếng Anh, nó chỉ vấp trong một vài trường hợp.

3. Dragon NaturallySpeaking

Như đã nói, Dragon là một công cụ nhận dạng giọng nói hấp dẫn với nhiều thuật toán nhận dạng mạnh mẽ, tuy nhiên giá của nó là khá đắt, phiên bản Home có giá khoảng 1,55 triệu VND (75 USD) và Premium có giá khoảng 3,1 triệu VND (150 USD0. Bạn có thể tham khảo thêm thông tin về phần mềm này tại địa chỉ http://www. nuance.com/dragon/index.htm.

Nếu có một ultrabook Intel hoặc máy tính AIO gần đây, bạn có thể thấy ứng dụng Dragon Assistant được cài đặt sẵn (bạn cũng tìm thấy nó được cài sẵn trên iPhone, iPad, và Nuance khẳng định hồi đầu năm rằng công ty họ đã sản xuất thuật toán cho Siri của Apple). Bạn cũng có thể xem trước phiên bản Dragon Notes có giá khoảng 415.000 VND, cho phép kiểm tra khả năng nhận thức tiếng nói dưới dạng chương trình rút gọn tại http://www.nuance.com/dragon/ dragon-notes/index.htm.

Khi sử dụng Dragon NaturallySpeaking ở lần đầu tiên, bạn phải thực hiện đọc văn bản thông thường để thiết lập hồ sơ cá nhân người dùng, khi hoàn tất ứng dụng sẽ tải lên một thanh ở trên cùng màn hình với biểu tượng chiếc microphone màu cam, cho biết Dragon hiện không lắng nghe. Để khởi động ứng dụng, chỉ cần nói “wake up”, logo màu cam sẽ chuyển sang màu xanh, cho thấy nó đã sẵn sàng làm việc.

Một tính năng tuyệt vời của Dragon sẽ được tích hợp vào các ứng dụng web và email của bạn, bao gồm cả Gmail. Bất cứ nơi nào tìm thấy một hộp văn bản, Dragon sẽ có mặt. Nó có thể viết email, thực hiện tìm kiếm Google, gửi lên Facebook và Twitter, hay khởi động trình duyệt web.

Sự chính xác về mặt chính tả là ưu điểm của Dragon. Bạn có thể mở các ứng dụng xử lý văn bản bình thường như MS Word và Notepad và đưa ra mệnh lệnh văn bản. Nếu thấy nó hiểu sai hoặc viết sai lời nói, bạn có thể ra lệnh cho Dragon quay trở lại và sửa chữa bằng giọng nói, mang lại một danh sách các từ khác có thể và cho phép chọn một trong những từ mà bạn muốn. Nếu từ đó không có sẵn trong danh sách này, bạn có thể nhập nó để Dragon biết điều đó trong tương lai.

Bạn cũng có thể chỉ định các bộ phận của văn bản muốn đánh dấu, in nghiêng, gạch chân, mở một đoạn mới... Sau khi hoàn tất, có thể ra lệnh cho Dragon đóng tập tin, in, lưu lại hoặc mở một tài liệu khác.

Mặc dù vượt trội so với các công cụ khác nhưng một số điều vẫn còn hạn chế ở Dragon, như thanh lý lịch thành viên không hợp với sự độc đáo của trình duyệt, làm cho nó trở nên có vẻ lộn xộn.

4. TalkTyper

Là dịch vụ trực tuyến cung cấp tại địa chỉ http:// talktyper.com/, TalkTyper mang lại cho bạn khả năng ra lệnh và một số tùy chọn cơ bản xử lý văn bản. Đối với nhiều người, chừng đó là quá đủ để thực hiện những văn bản dài nhưng không quá phức tạp.

TalkTyper sử dụng thuật toán nhận diện giọng nói Google, do đó bạn sẽ nhận được một công cụ khá hiệu quả, nhưng cũng đòi hỏi bạn phải cài Google Chrome. Để sử dụng, bạn chỉ cần bấm vào biểu tượng microphone màu xanh bên phải và đọc văn bản. Sau khi hoàn tất văn bản trên màn hình, hãy bấm vào nút mũi tên chỉ xuống để di chuyển nó vào hộp bên dưới, nơi cung cấp các tùy chọn bao gồm sao chép văn bản vào clipboard, gửi email, in ấn, tweet, và dịch sang ngôn ngữ khác bằng cách tự động mở một tab trình duyệt mới với văn bản được đưa vào Google Translate.

5. Tazti

Tazti cung cấp cho người dùng 2 tính năng đặc biệt, đó là bạn có thể sử dụng ứng dụng kiểm soát các lệnh máy tính và trò chơi với giọng nói của mình. Và nếu Tazti không có các lệnh mà bạn cần, bạn có thể tự mình tạo ra nó. Bạn có thể tải phần mềm này về tại địa chỉ http://www. tazti.com/index.php với phí sử dụng là khoảng 620.000 VND (29,99 USD).

Khác với 4 ứng dụng chuyên về văn bản giới thiệu bên trên, Tazti giúp bạn điều khiển trò chơi, mở các ứng dụng và thậm chí là sử dụng các dòng lệnh. Bạn thậm chí có thể sử dụng lệnh “click” và “double click” để loại bỏ sự cần thiết phải sử dụng đến chuột.

Nhược điểm lớn ở Tazti là nó không cho phép bạn ra lệnh văn bản cho việc ghi lại tài liệu. Nó không phải là loại phần mềm có chức năng nhận dạng giọng nói, thay vào đó, Tazti nhắm đến game thủ, những người muốn sử dụng giọng nói của mình để gửi thông tin cho nhân vật của mình vào trận chiến, hoặc cho người khuyết tật khởi động chương trình, khởi động một công cụ nghe nhạc và duyệt web mà không cần đụng đến bàn phím. Thực tế là bạn có thể thực hiện những thao tác quan trọng của Windows với Tazti, ngay cả khi nó không cung cấp khả năng nhận dạng chính tả.

QUỐC TRUNG [email protected]