Chỉ vài tuần sau khi ElevenLabs ra mắt công cụ giọng nói AI tổng quát cho phép bạn tạo giọng nói bằng lời nhắc bằng văn bản, Hume AI hiện đang cung cấp một loạt bot giọng nói AI trong trình bao bọc ứng dụng dễ sử dụng mà bạn có thể sử dụng từ web browser.
Ứng dụng lấy từ mô hình ngôn ngữ giọng nói của chính công ty, EVI 2, với các LLM bổ sung được sử dụng trên cơ sở 'bổ sung', bao gồm Claude 3.5 Haiku từ Anthropic và cảm thấy được định vị là đối thủ cạnh tranh với mô hình ChatGPT Advanced Voice của OpenAI (vừa xuất hiện trên Mac và Windows).
Và, mặc dù tôi rất ấn tượng bởi cách bắt đầu đơn giản như thế nào, nhưng chắc chắn cho đến nay, vẫn có một số điều chỉnh cần được thực hiện với một số khía cạnh của ứng dụng.
Tôi đã thử nghiệm nó với một số gợi ý chung và nhận thấy một số gợi ý thực sự ấn tượng, trong khi những gợi ý khác lại tụt lại phía sau.
Thực hành với ứng dụng Hume AI
Giới thiệu Ứng dụng Hume mới Có các trợ lý hoàn toàn mới kết hợp giọng nói và tính cách do mô hình ngôn ngữ lời nói của chúng tôi, EVI 2, tạo ra, cùng với các LLM và công cụ bổ sung như Claude 3.5 Haiku mới từ @AnthropicAI. pic.twitter.com/Tej3f7mBFWNgày 4 tháng 11 năm 2024
Điều thú vị của ứng dụng Hume AI là nó phân chia nhiều giọng nói, mỗi giọng nói có giọng điệu và phong cách riêng để tạo cảm giác như bạn đang chọn nói chuyện với những 'người' khác nhau cho các chủ đề khác nhau.
Ví dụ: có một câu trả lời nhanh theo kiểu chatbot, trong khi một câu trả lời khác tập trung vào lời khuyên triết học. Mỗi chức năng đều giống nhau – bạn nhấp và nói qua micrô và không cần có tài khoản Hume nếu bạn muốn dùng thử.
Tôi đã hỏi chatbot Câu trả lời nhanh về chiều cao của Tháp Eiffel và nhận được câu trả lời nhanh chóng, sau đó là thông tin bổ sung về cách tháp được thêm vào theo thời gian và các phần nhất định của tháp lớn như thế nào.
Tôi đã yêu cầu Người kể chuyện kể một câu chuyện về một chiếc ô tô và mặc dù tôi không mong đợi một bộ phim sử thi sánh ngang với Pixar nhưng nó đã vấp ngã nhiều lần. Nó lặp lại lời thoại và thậm chí thay đổi giọng nói ở một thời điểm khá chói tai, nhưng thật vui khi nhận được những lời nhắc bổ sung để giúp định hướng mạch câu chuyện (đáng buồn thay, câu chuyện mà nó cung cấp, về một chiếc ô tô tên Cara đang tìm kiếm nguồn điện , khó có thể sớm giành được bất kỳ giải thưởng nào.
Mặt khác, có một số điểm trùng lặp giữa một số giọng nói và tôi thực sự thấy rằng có một cách hay để thừa nhận rằng không có một câu trả lời đúng nào.
Tôi hỏi giọng nói Tâm linh làm cách nào để tôi có thể sống tốt hơn trong thời điểm này và nó gợi ý cảm nhận làn gió nhẹ lướt qua mái tóc, ánh nắng trên da và kỳ lạ là tôi hãy thử ăn một quả xoài.
Lời nhắc tương tự trên bot Câu hỏi sâu hơn đã nhắc nhở tôi ngửi thấy mùi cà phê buổi sáng và cách ánh sáng mặt trời chiếu vào bàn vì lý do nào đó. Điều thú vị là bot Câu hỏi sâu hơn, giống như bot Kể chuyện, liên tục lặp lại một số dòng hội thoại.
Tôi chắc chắn tò mò muốn biết mọi thứ sẽ mở rộng như thế nào từ đây và tôi nghĩ Hume có một cơ sở vững chắc để xây dựng nếu nó có thể khắc phục những vấn đề nhỏ ban đầu đó.
Thông tin khác từ Hướng dẫn của Tom