ChatGPT được bổ sung chia sẻ màn hình và phân tích video thời gian thực, cạnh tranh với Gemini 2

Tin hot13 December, 2024

OpenAI vừa chính thức bổ sung tính năng chia sẻ video và màn hình được chờ đợi từ lâu vào chế độ giọng nói nâng cao, mang lại khả năng tương tác đa dạng hơn giữa người dùng và chatbot. Đây là một bước tiến quan trọng, đánh dấu sự phát triển mạnh mẽ của công nghệ trí tuệ nhân tạo trong việc cung cấp trải nghiệm gần gũi và linh hoạt hơn.

Tính năng mới cho chế độ giọng nói nâng cao

Lần đầu tiên, OpenAI hé lộ khả năng video vào tháng 5, khi công ty công bố GPT-4 và chia sẻ về việc ChatGPT có thể “xem” các trò chơi và giải thích những gì đang diễn ra. Tính năng giọng nói nâng cao sau đó được ra mắt vào tháng 9. Hiện nay, cả tính năng video và chia sẻ màn hình đã có mặt trên các ứng dụng di động dành cho iOS và Android, phục vụ người dùng ChatGPT Teams, Plus và Pro. Đối với các gói Enterprise và Edu, tính năng này sẽ chính thức được triển khai vào tháng 1 năm sau. Tuy nhiên, người dùng tại một số quốc gia thuộc Liên minh Châu Âu (EU), Thụy Sĩ, Iceland, Na Uy và Liechtenstein sẽ không thể sử dụng chế độ giọng nói nâng cao do các hạn chế đặc thù.

Người dùng có thể truy cập chế độ video thông qua các nút mới trên giao diện chế độ giọng nói nâng cao. Khi sử dụng, ChatGPT sẽ phản hồi theo thời gian thực, không chỉ dựa trên câu hỏi mà còn thông qua những gì được hiển thị trong video. Điều này làm cho các cuộc trò chuyện trở nên sinh động hơn, giống như một cuộc gọi video trên FaceTime.

Khả năng vượt trội của chế độ video

Một trong những tính năng nổi bật là khả năng nhận diện vật thể và tình huống thực tế xung quanh người dùng. ChatGPT không chỉ quan sát mà còn ghi nhớ thông tin từ các đối tượng hoặc con người được giới thiệu. Trong một bản demo của OpenAI thuộc sự kiện "12 Ngày của OpenAI", ChatGPT đã sử dụng chế độ video để hướng dẫn cách pha cà phê. Nó xác định chính xác các dụng cụ cần thiết, đưa ra hướng dẫn chi tiết và thậm chí bình luận về kết quả cuối cùng.

Khả năng này của ChatGPT có sự tương đồng với những gì mà Google vừa giới thiệu trong Project Astra với Gemini 2.0. Project Astra cho phép người dùng mở cuộc trò chuyện video, trong đó Gemini có thể trả lời câu hỏi về các đối tượng trong video, chẳng hạn xác định một tác phẩm nghệ thuật trên đường phố London. Dường như OpenAI và Google đang chạy đua để cung cấp các công cụ AI vượt xa các thiết bị AI hiện tại, như Humane Pin hay Rabbit r1, vốn cũng dựa vào việc nhận diện và phản hồi dựa trên hình ảnh thực tế.

Chia sẻ màn hình: Mở rộng tiềm năng AI

Tính năng chia sẻ màn hình được tích hợp thông qua menu ba chấm, cho phép người dùng điều hướng ra khỏi ứng dụng ChatGPT và mở các ứng dụng khác trên điện thoại. Trong một bản demo, OpenAI đã trình diễn việc sử dụng tính năng này để trợ giúp người dùng phân tích một bức ảnh nhận được qua tin nhắn. Sau khi kích hoạt chia sẻ màn hình, ChatGPT đã giải thích nội dung bức ảnh và cung cấp các gợi ý phù hợp. ChatGPT được bổ sung chia sẻ màn hình và phân tích video thời gian thực, cạnh tranh với Gemini 2

Tuy nhiên, tính năng này không phải là hoàn toàn mới. Microsoft và Google cũng đã triển khai các tính năng tương tự. Microsoft gần đây ra mắt phiên bản xem trước của Copilot Vision, một công cụ cho phép người dùng mở các cuộc trò chuyện với AI trong khi duyệt web. Copilot Vision không chỉ xem được hình ảnh mà còn hỗ trợ chơi các trò chơi như Geoguessr. Trong khi đó, Google đang phát triển tính năng tương tự thông qua Project Astra, mang đến khả năng đọc và phân tích dữ liệu trình duyệt.

Định hướng tương lai cho AI và doanh nghiệp

Mặc dù các tính năng này hiện được thiết kế nhắm vào người dùng cá nhân, nhưng tiềm năng ứng dụng trong doanh nghiệp là rất lớn. Các tác nhân AI có thể hỗ trợ cộng tác thông qua việc nhận diện và tương tác với nội dung trên màn hình, như cách Copilot Vision hoặc Project Astra đang thực hiện. Đây cũng có thể là bước đi ban đầu hướng đến các mô hình AI không chỉ nhìn màn hình mà còn chủ động thao tác, chẳng hạn mở tab hoặc khởi động chương trình theo yêu cầu. Công nghệ này hứa hẹn nâng cao khả năng làm việc nhóm giữa con người và máy móc.

BÀI VIẾT LIÊN QUANXEM THÊM