Một câu hỏi tiếp theo về điểm số cuối cùng đã được trả lời chính xác, nhưng Gemini có tên của người ghi bàn của lần chạm bóng đầu tiên sai: AI cho rằng đó là Johan Dotson. Dotson đã được hiển thị nhận được một cú chạm bóng trong các điểm nổi bật với điểm số ở mức 0-0, nhưng nó đã được loại trừ một ví dụ về các sắc thái mà AI không nhất thiết phải tiếp tục.
Song Tử đã xác định thành công khi các thủ lĩnh thành phố Kansas có điểm đầu tiên và thậm chí còn bao gồm một dấu thời gian liên kết thẳng với cú chạm bóng trong clip YouTube. Nó cũng có tên của người ghi bàn đúng. Có vẻ như Song Tử phụ thuộc rất nhiều vào bình luận cho các clip thể thao, điều này không đáng ngạc nhiên.
Tóm tắt nội dung video
AI có thể chọn chi tiết video nếu họ được đề cập trong âm thanh.
Ảnh: David Nield
Tiếp theo, chúng tôi đã cố gắng đưa Gemini lên chống lại một featurette hậu trường cho khách sạn Grand Budapest, do Wes Anderson đạo diễn. Đoạn clip chạy đến bốn phút rưỡi và Gemini đã bắn trả một số câu trả lời gần như ngay lập tức: nó xác định tên của bộ phim được nói đến, và những nhịp chính của câu chuyện của clip.
Tuy nhiên, tất cả đều phụ thuộc vào âm thanh (hoặc bảng điểm) một lần nữa, dường như không có bất kỳ phân tích nào về nội dung video thực tế. AI không thể nói ai là người nói chuyện trong video, mặc dù tên của họ được hiển thị trên màn hình và không thể nói đạo diễn là ai (mặc dù điều này cũng được đề cập trong mô tả video).
Về mặt tích cực, Song Tử đã làm một công việc ấn tượng là tóm tắt âm thanh của video. Nó đã xác định chính xác một số thách thức làm phim đã được đề cập trong suốt, và cung cấp dấu thời gian cho họ – từ việc tìm kiếm một bộ để đại diện cho Grand Budapest, để lấp đầy nó bằng các tính năng bổ sung.
Tóm tắt các cuộc phỏng vấn
Gemini có thể cung cấp dấu thời gian cho video được chỉ định.
Ảnh: David Nield
Cuối cùng, chúng tôi đã thử Google Gemini với một cuộc phỏng vấn: Kênh 4 ở Anh nói chuyện với Charlie Brooker và Siena Kelly về loạt phim mới nhất của Gương đen (Có lẽ thích hợp cho một bài viết về AI). Gemini tỏ ra rất có khả năng trong việc chọn ra các điểm nói chuyện và thêm dấu thời gian, mặc dù tất nhiên toàn bộ video chủ yếu nói chuyện.
Tuy nhiên, một lần nữa, không có bối cảnh nào về bất cứ điều gì bên ngoài âm thanh hoặc bảng điểm. Gemini AI không thể nói cuộc phỏng vấn diễn ra ở đâu, hoặc những người tham gia đã hành động như thế nào, hoặc bất cứ điều gì khác về hình ảnh của video, điều đáng để ghi nhớ nếu bạn tự sử dụng nó.
Đối với các video trong đó các câu trả lời bạn muốn có trong âm thanh của video YouTube và bảng điểm liên quan của nó, Gemini hoạt động rất tốt trong việc tóm tắt và cung cấp câu trả lời chính xác (cung cấp các nhà bình luận đề cập khi một lần chạm bóng được loại trừ, cũng như khi một người được ghi). Đối với bất kỳ loại thông tin trực quan nào, bạn vẫn sẽ phải tự xem video.
Xem chi tiết và đăng kýKhám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.