Microsoft Ra Mắt Hệ Thống AI Mô Tả Hình Ảnh Vượt Trội

Microsoft Ra Mắt Hệ Thống AI Mô Tả Hình Ảnh Vượt Trội

Từ khi các nhà nghiên cứu bắt đầu làm việc với trí tuệ nhân tạo (AI), một trong những mục tiêu chính luôn là phát triển hệ thống mô tả hình ảnh tiên tiến. Nhiều công ty đang đầu tư nguồn lực quý giá vào AI để phát triển các sản phẩm ngày càng tốt hơn. Hiện tại, Microsoft đã giới thiệu một hệ thống AI mới có khả năng mô tả và miêu tả hình ảnh chính xác hơn con người.

Microsoft gần đây đã công bố bước đột phá này qua một bài đăng chính thức trên blog. Mặc dù mô tả hình ảnh là một trong những nhiệm vụ khó khăn nhất đối với hệ thống AI, Microsoft khẳng định rằng hệ thống AI “Mô Tả Hình Ảnh Nâng Cao” mới của họ có khả năng mô tả hình ảnh tương đương với con người. Bước đột phá này trong công nghệ AI sẽ giúp công ty nâng cao các sản phẩm và dịch vụ của mình trên thị trường.

Mô Tả Hình Ảnh Tốt Nhất

Công nghệ mô tả hình ảnh tự động có thể không nghe có vẻ quan trọng, nhưng tin tôi đi, nó thực sự quan trọng. Công nghệ này giúp người dùng truy cập nội dung trong hình ảnh, dù là trong thư viện ảnh của bạn hay ở đâu đó trong tài liệu dài 5 trang. Ví dụ, khi bạn tìm kiếm “chó” trong thư viện ảnh của mình, ứng dụng chỉ định sẽ sử dụng khả năng nhận diện hình ảnh của nó để sắp xếp mọi bức ảnh có chó và sau đó thu hẹp kết quả tìm kiếm của bạn. Đây là một trong những nhiệm vụ yêu cầu hệ thống phải có khả năng nhận diện hình ảnh tốt.

Mô hình mới của Microsoft có thể tạo ra các chú thích cho hình ảnh tốt hơn nhiều so với các phiên bản trước. Và những chú thích này thực sự tương tự như những gì con người sẽ viết để miêu tả hình ảnh.

Microsoft AI mô tả hình ảnh 1Microsoft AI mô tả hình ảnh 1

Như bạn có thể thấy, hệ thống AI “Mô Tả Hình Ảnh Nâng Cao” mới này mô tả hình ảnh chính xác hơn trước đây. Hơn nữa, mô hình mới này thậm chí còn nhận diện được ngữ cảnh của hình ảnh. Hãy xem hình ảnh khác này.

Microsoft AI mô tả hình ảnh 2Microsoft AI mô tả hình ảnh 2

Trong hình ảnh trên, hệ thống trước đây đưa ra mô tả mơ hồ mà không nói rõ các cầu thủ đang làm gì. Tuy nhiên, mô hình mới biết rằng các cầu thủ đang ăn mừng và thực sự là cầu thủ bóng đá, không phải bóng chày!

Tiếp Cận: Dành Cho Người Khiếm Thị

Khả năng mô tả hình ảnh này hữu ích cho người dùng, nhưng những người mà công nghệ này quan trọng nhất là những người khiếm thị hoặc có thị lực kém. Những người này phải dựa vào các hướng dẫn bằng giọng nói khi điều hướng qua các hệ thống máy tính. Vì vậy, mô tả hình ảnh giúp họ duyệt qua mạng xã hội hoặc tin nhắn dễ dàng hơn.

“Việc sử dụng mô tả hình ảnh để tạo ra mô tả ảnh, còn gọi là văn bản thay thế, trong trang web hoặc tài liệu đặc biệt quan trọng đối với những người khiếm thị hoặc có thị lực kém,” Saqib Shaikh, Quản lý Kỹ sư Phần mềm tại bộ phận AI của Microsoft ở Redmond, cho biết.

Do đó, nhà sản xuất Windows đang tích hợp hệ thống AI mô tả hình ảnh mới này vào ứng dụng máy ảnh nói, Seeing AI, được thiết kế đặc biệt cho người khiếm thị. Ứng dụng này sử dụng khả năng mô tả hình ảnh của AI để miêu tả các bức ảnh trong thiết bị di động của người dùng, thậm chí cả trên các hồ sơ mạng xã hội.

Ngoài việc tích hợp vào ứng dụng Seeing AI, Microsoft cũng cung cấp hệ thống AI mới này cho khách hàng của Azure AI. Nó hiện tồn tại như một phần của Dịch vụ Nhận thức Azure Computer Vision và các nhà phát triển có thể sử dụng khả năng của nó trong các ứng dụng và dịch vụ của riêng họ, nếu họ muốn.

Hơn nữa, công nghệ mô tả hình ảnh AI cũng sẽ được tích hợp vào các ứng dụng Microsoft Office như Microsoft Word, PowerPoint và Outlook trong năm nay.

Kết Luận

Hệ thống AI mô tả hình ảnh mới của Microsoft không chỉ nâng cao khả năng nhận diện và mô tả hình ảnh mà còn mang lại lợi ích to lớn cho người khiếm thị thông qua ứng dụng Seeing AI. Sự phát triển này mở ra nhiều cơ hội cho các nhà phát triển và người dùng với việc tích hợp vào Azure AI và các ứng dụng Microsoft Office.

Để tìm hiểu thêm về những tiến bộ trong công nghệ AI và game, hãy truy cập Afropolitan Group.

  • Microsoft. (2023). Azure Image Captioning. Retrieved from blogs.microsoft.com/ai/azure-image-captioning/
  • Beebom. (2020). Intel Unveils Artificial Intelligence Chip Codenamed Spring Hill. Retrieved from beebom.com/intel-unveils-artificial-intelligence-chip-codenamed-spring-hill/
  • Beebom. (2020). Deezer Built an AI to Make Explicit Songs Kid-Friendly. Retrieved from beebom.com/deezer-built-an-ai-to-make-explicit-songs-kid-friendly/
  • Beebom. (2020). Airbnb Uses AI for Bookers’ Background Checks. Retrieved from beebom.com/airbnb-uses-ai-for-bookers-background-checks/
  • Beebom. (2020). Microsoft Adds Desktop Spotlight to Windows 10. Retrieved from beebom.com/microsoft-adds-desktop-spotlight-windows-10/
  • Beebom. (2020). Microsoft Explains Why Modern Web Browsers Use So Much Memory. Retrieved from beebom.com/microsoft-explains-why-modern-web-browsers-use-so-much-memory/

FAQ

  1. Hệ thống AI mô tả hình ảnh của Microsoft có gì đặc biệt?

    • Hệ thống AI mới của Microsoft có khả năng mô tả hình ảnh chính xác hơn con người và nhận diện ngữ cảnh của hình ảnh.
  2. Ứng dụng Seeing AI là gì?

    • Seeing AI là một ứng dụng máy ảnh nói được thiết kế đặc biệt cho người khiếm thị, sử dụng AI để mô tả hình ảnh.
  3. Microsoft có tích hợp AI mô tả hình ảnh vào các ứng dụng khác không?

    • Có, Microsoft sẽ tích hợp công nghệ này vào các ứng dụng Microsoft Office như Word, PowerPoint và Outlook.
  4. Lợi ích của công nghệ mô tả hình ảnh đối với người khiếm thị là gì?

    • Công nghệ này giúp người khiếm thị dễ dàng truy cập và hiểu nội dung hình ảnh trên các thiết bị và mạng xã hội.
  5. Các nhà phát triển có thể sử dụng hệ thống AI mô tả hình ảnh của Microsoft như thế nào?

    • Các nhà phát triển có thể sử dụng khả năng của hệ thống AI này thông qua Dịch vụ Nhận thức Azure Computer Vision để tích hợp vào các ứng dụng và dịch vụ của riêng họ.
  6. Microsoft có cung cấp hệ thống AI mô tả hình ảnh cho các doanh nghiệp không?

    • Có, Microsoft cung cấp hệ thống AI mô tả hình ảnh cho khách hàng của Azure AI.
  7. Công nghệ mô tả hình ảnh của Microsoft có ứng dụng nào khác không?

    • Ngoài việc hỗ trợ người khiếm thị, công nghệ này có thể được sử dụng trong các ứng dụng tìm kiếm hình ảnh và phân loại ảnh.