Các nhà khoa học sử dụng AI để biến bức ảnh 134 năm tuổi thành mô hình 3D về ngôi đền bị mất

Một nhóm các nhà khoa học máy tính gần đây đã thực hiện tái tạo 3D các tấm phù điêu bị mất tại Di sản Thế giới được UNESCO công nhận bằng trí tuệ nhân tạo.

Các nhà nghiên cứu đã phát triển một mạng lưới thần kinh có thể chụp một bức ảnh 2D của một vật thể ba chiều và tạo ra sự tái tạo kỹ thuật số theo ba chiều. Trên thực tế, họ đã phát triển một kính soi nổi cho thế kỷ 21. Nhóm đã trình bày bằng chứng khái niệm của mình tại phiên bản thứ 32 của hội nghị ACM Multimedia vào tháng trước.

Với mục đích nghiên cứu, các nhà khoa học đã sử dụng hình ảnh phù điêu ở ngôi đền Borobudur của Indonesia, Di sản Thế giới được UNESCO công nhận. Ngôi chùa được bao phủ bởi 2.672 bức phù điêu cơ bản, khiến nó trở thành bộ sưu tập phù điêu Phật giáo lớn nhất thế giới. Vào cuối thế kỷ 19, phần chân của ngôi đền đã được lắp đặt lại, che giấu 156 bức phù điêu đằng sau những bức tường đá và chúng vẫn được chôn cất cho đến ngày nay. Nhưng trước khi chúng được chôn cất, những bức ảnh thang độ xám được chụp lại từng tấm bảng. Mạng lưới thần kinh của nhóm gần đây đã tìm cách tái tạo lại một trong những bức phù điêu hiện đang bị ẩn giấu bằng cách sử dụng một bức ảnh đen trắng cũ từ 134 năm trước.

Bức ảnh đen trắng 138 tuổi được sử dụng trong nghiên cứu.
Hình ảnh: Pan và cộng sự. 2024

Những nỗ lực trước đây đã được thực hiện, nhưng những lần tái tạo trước đó không thể tái tạo các chi tiết đẹp hơn của các bức phù điêu. Những chi tiết đó bị mất do nén các giá trị độ sâu; nói cách khác, những bức phù điêu ba chiều này có chi tiết từ các hình chạm khắc gần nhất với người xem và xa nhất với người xem, và những nỗ lực tái tạo trước đó đã làm phẳng các chi tiết ở những độ sâu khác nhau này. Nhóm nghiên cứu gọi các đặc điểm bị mất là “các cạnh mềm” và phát triển bản đồ về các cạnh đó dựa trên những thay đổi độ cong được tính toán trong không gian 3D.

Trong bài báo mới, nhóm nghiên cứu thừa nhận rằng bản đồ biên hiện tại đang làm giảm độ chính xác của mô hình, nó không truyền tải chính xác những thay đổi về độ cong 3D và cách nó được tích hợp vào mạng đã hạn chế tác động của nó đến việc ước tính độ sâu trong các đối tượng vật chất.

Bản đồ cạnh mềm (trái) và bản đồ ngữ nghĩa (phải) của hình ảnh phù điêu 2d.
Bản đồ cạnh mềm (trái) và bản đồ ngữ nghĩa (phải) của hình ảnh phù điêu 2d. Pan và cộng sự. 2024

Satoshi Tanaka, nhà nghiên cứu tại Đại học Ritsumeikan ở Nhật Bản và đồng tác giả của nghiên cứu, cho biết: “Mặc dù chúng tôi đã đạt được độ chính xác tái tạo 95% nhưng các chi tiết tốt hơn như khuôn mặt người và đồ trang trí vẫn bị thiếu”. “Điều này là do độ nén cao của các giá trị độ sâu trong hình ảnh phù điêu 2D, gây khó khăn cho việc trích xuất các biến thể độ sâu dọc theo các cạnh. Phương pháp mới của chúng tôi giải quyết vấn đề này bằng cách tăng cường ước tính độ sâu, đặc biệt dọc theo các cạnh mềm, sử dụng phương pháp phát hiện cạnh mới.”

Các hình ảnh trên thể hiện kết quả thử nghiệm tốt nhất của nhóm (hàng dưới cùng) đối với bản đồ cạnh mềm (trái) và bản đồ ngữ nghĩa (phải) của mẫu phù điêu, so với dữ liệu thực tế cơ bản (hàng trên cùng). Bản đồ cạnh chỉ có vậy—nó theo dõi các điểm mà các đường cong trong hình phù điêu mang lại chiều sâu, điều này khiến các mô hình trước đó nhầm lẫn.

Bản đồ ngữ nghĩa—gợi nhớ một cách mơ hồ đến Blue Green Red của Ellsworth Kelly—cho thấy cơ sở tri thức của mô hình liên kết các khái niệm liên quan như thế nào. Trong hình ảnh này, mô hình phân biệt các đặc điểm tiền cảnh (màu xanh), hình người (màu đỏ) và nền. Các nhà nghiên cứu cũng đưa ra cách so sánh mô hình của họ với các mô hình hiện đại khác liên quan đến hình ảnh thực tế trên mặt đất.

AI gặp phải một số nhược điểm, nhưng trong khoa học, nó đang tỏ ra rất thành thạo trong việc giải quyết các vấn đề về nhận dạng hình ảnh và bảo tồn di sản văn hóa. Vào tháng 9, một nhóm khác đã sử dụng mạng lưới thần kinh để xác định các chi tiết chưa từng thấy trước đây trong các bảng do Raphael vẽ và một nhóm khác đã sử dụng mạng lưới thần kinh tích chập để tăng gần gấp đôi số lượng đường Nazca đã biết — các hình vẽ địa lý nổi tiếng ở Peru.

Mô hình có khả năng hiểu đa phương thức, nghĩa là nó có thể tiếp nhận nhiều kênh dữ liệu để hiểu đối tượng mục tiêu của nó. Trong trường hợp này, máy dò cạnh mềm được sử dụng để đo các đường cong trong bức phù điêu không chỉ nhìn thấy những thay đổi nhỏ về độ sáng để cảm nhận độ sâu mà còn nhìn thấy cả các đường cong trong hình chạm khắc. Việc sử dụng cả hai kênh thông tin cho phép mô hình mới tái tạo lại hình ảnh phù điêu sắc nét hơn, chi tiết hơn so với những nỗ lực trước đó.

Tanaka cho biết: “Công nghệ của chúng tôi có tiềm năng to lớn trong việc bảo tồn và chia sẻ di sản văn hóa. “Nó mở ra những cơ hội mới không chỉ cho các nhà khảo cổ mà còn cho những trải nghiệm ảo phong phú thông qua công nghệ VR và metaverse, bảo tồn di sản toàn cầu cho các thế hệ tương lai.”

Di sản văn hóa cần được bảo tồn. Nhưng một số di sản văn hóa đặc biệt gặp rủi ro và mặc dù những công trình tái tạo do AI tạo ra này không thể thay thế McCoy thật nhưng chúng vẫn có những công dụng riêng. Mạng lưới thần kinh giống như mô tả trong bài báo gần đây có thể hồi sinh những di sản đã mất chỉ tồn tại trong hình ảnh—ví dụ: Tượng Phật Bamiyan, những bức tượng hoành tráng bị Taliban cho nổ tung vào năm 2001—nếu chỉ trong môi trường thực tế ảo hoặc tăng cường.

Các mô hình này cũng có thể được sử dụng để bảo tồn di sản văn hóa đang trên bờ vực bị hủy diệt, giống như những hình chạm khắc của thổ dân hàng thế kỷ trên cây boab ở sa mạc Tanami của Australia.

Di sản văn hóa xác định chúng ta là ai thông qua các cộng đồng và nền văn hóa có trước chúng ta. Nếu những mô hình AI này giúp các nhà sử học nghệ thuật và các nhà bảo tồn chỉ cứu được một phần lịch sử thì họ đã làm rất tốt. Tất nhiên, các mô hình AI cũng đòi hỏi một lượng năng lượng khổng lồ, điều này có thể góp phần làm mất đi di sản văn hóa theo những cách tiếp tuyến. Nhưng ngay cả khi cách thức cung cấp năng lượng cho AI vẫn còn có vấn đề, thì việc sử dụng công nghệ này vì những mục đích chính đáng vẫn là điều đúng đắn trong lịch sử — đặc biệt là khi nói đến các hiện vật.