TL;DR: Tìm hiểu và bàn luận về bài toán đánh giá thẩm mỹ ảnh cùng những giải pháp giải quyết bài toán này trên góc độ kỹ thuật với công cụ là trí tuệ nhân tạo. Link to the English version of this blog post can be found here.
Thẩm mỹ [1,2,3] (danh từ) có nghĩa là cái đẹp hay khả năng cảm thụ cái đẹp.
Đánh giá thẩm mỹ ảnh (Image Aesthetics Assessment) [4,5], khi được xét trên khía cạnh tính toán bởi máy móc, là một bài toán về thị giác máy tính nhằm phân loại các tấm ảnh vào các nhóm có mức độ thẩm mỹ khác nhau; hay nói cách khác, là đưa ra được những quyết định về mặt thẩm mỹ tương tự với cách làm của con người.
Các bạn thử tự hỏi bản thân xem đã bao giờ đánh giá thẩm mỹ của một bức ảnh hay chưa? Mình cá là hầu hết những ai đang đọc bài blog này đều đã làm công việc này rồi, thậm chí là hàng ngày. Không cần phải là một thứ gì đấy cao siêu, hành động đánh giá thẩm mỹ ảnh xuất hiện ngay trong quá trình các bạn chụp một tấm ảnh. Các bạn có thể sẽ căn góc độ chụp, điều chỉnh ánh sáng, thay đổi khẩu độ ống kính, hay nhắc nhở người mẫu thay đổi tư thế,v.v., tất cả là để thu được tấm hình đẹp nhất theo ý của bạn.
Ngoài đem lại giá trị về mặt tinh thần, một tấm ảnh đẹp còn có thể đem lại những giá trị rất lớn về vật chất. Không phải tự nhiên ta có những chuyên gia đánh giá chất lượng của ảnh. Không phải tự nhiên các mạng xã hội dựa trên việc chia sẻ những tấm ảnh như Instagram và Pinterest lại mọc lên. Không phải tự nhiên lại xuất hiện ngành công nghiệp bán ảnh stock; chúng ta có Pixtastock ở thị trường Nhật Bản, hay ở quy mô lớn hơn, ta có ông lớn Shutterstock, và còn rất nhiều những cái tên khác.
Một lý do nữa mà theo mình khiến cho bài toán này quan trọng đó là nhu cầu tìm kiếm những tấm ảnh đẹp sẽ ngày một tăng. Khi mà số lượng ảnh được chia sẻ trên Internet ngày một lớn, giữa một rừng ảnh xấu có đẹp có với đủ các thể loại nội dung, việc tìm ra một tấm ảnh ưng mắt có thể sẽ càng trở nên khó khăn hơn. Có lẽ, đến một ngày nào đó, việc tìm kiếm và sắp xếp những tấm ảnh theo một thang đo thẩm mỹ nào đấy sẽ trở thành tính năng tiêu chuẩn của tất cả các công cụ tìm kiếm.
Giờ ta sẽ cùng xem con người và máy móc làm công việc đánh giá thẩm mỹ ảnh kiểu gì.
Là một cá nhân, ắt hẳn mỗi người sẽ có những cách đánh giá của riêng mình; nhưng nhìn chung, để việc đánh giá diễn ra một cách có hệ thống, ta sẽ cần phải định nghĩa ra những tiêu chí thẩm mỹ.
Những tiêu chí có thể kể đến như:
Xét về tiêu chí bố cục, có rất nhiều cách để sắp xếp bố cục cho một tấm ảnh, phổ biến nhất có lẽ là quy tắc 1 phần 3 (Rule of Thirds), kế đến có thể là đối xứng (Symmetry),…, và còn rất nhiều những cách sắp xếp khác cho bố cục của ảnh.
Việc thỏa mãn một tiêu chí bố cục nào đấy có thể giúp cho tấm ảnh trở nên đẹp hơn. Một video ngắn (instagram.com/reel/CaPxY2pqOH0/) giới thiệu về một vài loại bố cục thường được dùng trong hội họa và nhiếp ảnh được chia sẻ bởi mitchleeuwe có thể giúp các bạn hiểu rõ hơn về tiêu chí thẩm mỹ này.
Về yếu tố ánh sáng, một tấm ảnh có ánh sáng đẹp có thể được định nghĩa là một tấm ảnh có ánh sáng vừa đủ, không bị thiếu sáng hay cháy sáng dẫn đến làm mất các chi tiết trên ảnh.
Việc nhấn mạnh được chủ thể chính cũng có thể giúp cho một tấm ảnh trở nên đẹp hơn. Bằng việc vận dụng những yếu tố như sự tương phản về màu sắc, hiệu ứng gần xa, sự cô lập,v.v., các nghệ sĩ có thể hướng được sự tập trung của người xem đến một vài khu vực nhất định trên ảnh một cách có chủ ý, nhằm phục vụ ý đồ nghệ thuật của mình.
Những đánh giá về sự ưng mắt của người mẫu hay sự hấp dẫn của hoa văn họa tiết lại có phần chủ quan hơn, đến từ quan điểm cá nhân của người đánh giá.
Tùy vào sự khác biệt về kinh nghiệm, giới tính, quốc gia, tôn giáo,v.v., mà những đánh giá của mỗi người lại có thể khác nhau.
Tính độc đáo về mặt nội dung thậm chí còn cần con mắt nghệ nghĩ của những người đánh giá, để chọn ra được bức ảnh có nội dung độc và lạ nhất trong những bức ảnh đang có.
Và còn rất nhiều những tiêu chí khác mà ta có thể định nghĩa để đánh giá độ thẩm mỹ cho những bức ảnh. Có thể thấy đây là một công việc không hề đơn giản với con người, có rất rất nhiều yếu tố có thể được đặt lên bàn cân cho việc đánh giá thẩm mỹ. Vậy, liệu rằng máy móc có thể làm thay con người công việc này?
Trước trả lời câu hỏi liệu máy móc có thể đánh giá được thẩm mỹ của một bức ảnh, ta sẽ phân loại các tiêu chí đánh giá thẩm mỹ ảnh vừa được liệt kê ở trên vào hai nhóm:
Hai chữ “kỹ thuật” cũng đã phần nào nói lên sự máy móc của những tiêu chí thuộc nhóm đầu tiên. Khi con người có thể đánh giá một tiêu chí về mặt định lượng, các quyết định được đưa ra sẽ càng trở nên khách quan hơn, và sẽ càng dễ dàng hơn để lập trình cho máy biết được như thế nào là thỏa mãn một tiêu chí nào đó, hay đạt được tiêu chí đó ở mức độ như thế nào.
Ngược lại, các tiêu chí đánh giá về nội dung lại chứa nhiều ý kiến chủ quan trong đó. Việc tìm ra được quy luật vì thế mà cũng trở nên khó khăn hơn, khó cho việc đánh giá một cách máy móc.
Để đánh giá được thẩm mỹ của ảnh một cách trọng vẹn, ta sẽ cần phải quan tâm cả về những yếu tố khách quan và những yếu tố mang tính chủ quan. Điều này đặt ra các thách thức cho con người trong việc truyền đạt những tri thức này cho máy nhằm mô phỏng lại quá trình đánh giá thẩm mỹ ảnh. Ta sẽ cùng đến với những phần tiếp theo để xem các công trình nghiên cứu hiện nay đang giải quyết vấn đề này như thế nào.
Hình vẽ phía trên cho ta một bức tranh toàn cảnh về bài toán đánh giá thẩm mỹ ảnh. Những khía cạnh tạo nên bức tranh này gồm
Trong bài blog này, ta sẽ chỉ tập trung vào ba khía cạnh: Đặc trưng được sử dụng, đầu ra của bài toán, và phạm vi của bài toán.
Đầu tiên, nói về các đặc trưng được sử dụng cho việc giải quyết bài toán, nếu ta coi giải pháp mà ta sử dụng để giải quyết bài toán đánh giá thẩm mỹ ảnh là một cỗ máy thì các đặc trưng ta cung cấp sẽ là nguyên liệu để cỗ máy đó hoạt động. Trong các công trình nghiên cứu từ trước cho đến nay về bài toán đánh giá thẩm mỹ ảnh, các nguyên liệu này có thể là…
Với vốn hiểu biết phong phú của mình về nhiếp ảnh, vật lý, toán học, và có thể là về nhiều lĩnh vực khác, các chuyên gia sẽ đề xuất những đặc trưng mà họ cho rằng có thể đại diện cho những tấm ảnh. Lấy ví dụ như Color Histogram, bằng việc phân tích các thông tin này, có lẽ ta sẽ tìm được ra những quy luật để phân biệt một tấm ảnh có màu sắc hài hòa với những tấm ảnh khác.
Các công trình sử dụng những đặc trưng được trích xuất bằng tay thường có tuổi đời khá cao, chứa hàm lượng toán lớn và kết quả thu được bởi các giải pháp được đề xuất bởi những công trình này chưa thực sự tốt. Tuy nhiên, ta có thể dễ dàng nhìn ra các yếu tố dẫn đến những quyết định liên quan đến thẩm mỹ của ảnh khi sử dụng các đặc trưng này.
Đây là những đặc trưng được trích xuất ra từ ảnh mà không hướng đến giải quyết cho một bài toán cụ thể. Có thể lấy ví dụ như Bag of Visual Words [6] hay Fisher Vectors [7]. Với những kết quả tốt hơn so với những cách tiếp cận cũ, việc sử dụng các đặc trưng tổng quát đã chứng tỏ rằng các đặc trưng thẩm mỹ của ảnh vốn đã nằm trong các đặc trưng tổng quát mà không cần sử dụng những kỹ thuật chuyên biệt để trích xuất như với các đặc trưng được trích xuất bằng tay. Điều này đã đưa ta đến gần hơn với kỷ nguyên của những đặc trưng được học trực tiếp từ dữ liệu — các đặc trưng được học bởi các mô hình học sâu.
Các đặc trưng được học ra trực tiếp từ dữ liệu bởi các mô hình học sâu không yêu cầu cung cấp trước các tri thức về đánh giá thẩm mỹ ảnh. Mô hình học sâu sẽ tự học ra các luật từ ảnh đầu vào và nhãn, hay đáp án, tương ứng mà con người cung cấp. Ưu điểm của phương pháp này là cho kết quả tốt hơn nhiều so với việc sử dụng các đặc trưng được trích xuất bằng tay. Tuy nhiên, số lượng dữ liệu cần có là rất rất lớn và ta sẽ gần như không thể lý giải được những quyết định mà mô hình học sâu đưa ra khi đánh giá thẩm mỹ cho một tấm ảnh.
Một vài mô hình trích xuất đặc trưng được các công trình đánh giá thẩm mỹ ảnh khá ưa chuộng có thể kể đến như: AlexNet [8], VGG [9], MobileNet [10,11,12], ResNet [13]. Từ những phần tiếp theo của bài viết, ta sẽ tập trung vào các công trình sử dụng các đặc trưng được học bởi các mô hình học sâu.
Sau khi đã có đầu vào cho cỗ máy, ta sẽ mong muốn cỗ máy này tạo ra cho chúng ta một cái gì đấy. Các loại đầu ra của bài toán đánh giá thẩm mỹ ảnh có thể được chia thành bốn nhóm, phục vụ cho bốn bài toán: Phân lớp, hồi quy, xếp hạng, và giải thích.
Với bài toán phân lớp, đầu ra có thể là phân loại một ảnh vào nhóm có mức độ thẩm mỹ thấp/cao, hay phân loại vào nhóm điểm thẩm mỹ trong một khoảng điểm cố định cho trước (ví dụ 1, 2,…, 10). Độ đo thường được sử dụng để đánh giá cho bài toán này cũng giống với các bài toán phân lớp thông thường, ví dụ như độ chính xác, chỉ số F1, v.v..
Sang đến bài toán hồi quy, một bức ảnh có thể được chấm điểm thẩm mỹ dưới dạng số thực. Độ đo phổ biến được sử dụng cho bài toán này gồm có sai số toàn phương trung bình (Mean Squared Error), sai số tuyệt đối trung bình (Mean Absolute Error),v.v..
Với bài toán xếp hạng, kiến trúc phổ biến sẽ là mạng Siamese (kiến trúc hai mạng được chia sẻ trọng số) [14] kết hợp với một hàm mất mát (Loss Function) phục vụ cho bài toán xếp hạng. Ngoài ra, ta còn có Triplet Network [15] (kiến trúc ba mạng được chia sẻ trọng số) kết hợp với Triplet Loss [15]. Tương quan Spearman (Spearman’s correlation) hay hệ số tương quan thứ tự xếp hạng Spearman (Spearman rank-order correlation coefficient) là độ đo được phổ biến trong bài toán này.
Ngoài ra, một nhóm các bài toán tập trung vào việc giải thích cho những quyết định thẩm mỹ do mô hình máy học đưa ra cũng nhận được sự quan tâm từ giới nghiên cứu. Với các mô hình dựa trên kiến trúc mạng nơ-ron tích chập (Convolutional Neural Networks), các kỹ thuật như CAM [16], GradCAM [17] được sử dụng. Những bài toán giải thích quyết định đánh giá thẩm mỹ còn có thể tồn tại dưới dạng một bài toán đa tác vụ (Multi-task) nhằm đánh giá mức độ thẩm mỹ của ảnh trên nhiều tiêu chí một cách đồng thời [18], hay dưới dạng một bài toán sinh chú thích cho ảnh (Image Captioning) nhằm tạo ra những đoạn văn bản dùng để giải thích cho những quyết định về thẩm mỹ [19].
Như đã đề cập trong những phần trên, quá trình đánh giá thẩm mỹ ảnh của con người luôn tồn tại yếu tố khách quan lẫn chủ quan trong đó.
Một cách phổ biến để gán nhãn dữ liệu cho bài toán đánh giá thẩm mỹ ảnh đó là chấm điểm cho mỗi bức ảnh thật nhiều lần với sự tham gia của nhiều cá nhân. Bằng cách này, độ thẩm mỹ của một bức ảnh sẽ được đại diện bởi một phân phối dữ liệu điểm.
Xét trên phạm vi của bài toán đánh giá thẩm mỹ, có hai hướng tiếp cận để giải quyết bài toán này.
Các công trình nghiên cứu đi theo hướng tiếp cận này coi thẩm mỹ là một thuộc tính cố hữu của ảnh, không phụ thuộc vào con mắt đánh giá của bất cứ cá nhân nào. Do đó, với mỗi ảnh đầu vào sẽ chỉ có một đầu ra tương ứng duy nhất đặc trưng cho độ thẩm mỹ của ảnh đó. Để có được dữ liệu cho việc huấn luyện mô hình, cách đơn giản nhất là sử dụng giá trị kỳ vọng, hay có thể hiểu đơn giản là giá trị trung bình, được tính ra từ phân phối dữ liệu điểm thẩm mỹ của từng ảnh.
Một số công trình thậm chí còn thiết kế ra các mô hình học trực tiếp các phân phối điểm của ảnh thay vì chỉ học ra các giá trị kỳ vọng. Việc tính toán sai số giữa kết quả dự đoán của mô hình và nhãn của dữ liệu sẽ cần các công cụ tính khoảng cách giữa các phân phối xác suất, ví dụ như Earth mover’s distance (EMD), Chi-square distance, KL divergence, v.v.. Tiêu biểu cho cách thiết kế này có thể kể đến NIMA [20]. Mặc dù không phải công trình đầu tiên sử dụng EMD cho việc đánh giá thẩm mỹ ảnh, NIMA vẫn là cái tên được nhiều người biết đến nhất, thậm chí là khi nhắc đến bài toán đánh giá thẩm mỹ ảnh nói chung. Mã nguồn của công trình này đã được triển khai trên nhiều Framework phổ biến như Tensorflow, Keras, PyTorch.
Ngoài cách tiếp cận theo hướng đánh giá thẩm mỹ một cách tổng quát cho ảnh, một số công trình giải quyết bài toán này theo hướng cá nhân hóa. Cách tiếp cận phổ biến của những công trình này là việc xuất phát từ các mô hình đánh giá thẩm mỹ ảnh tổng quát, từ đó sử dụng các dữ liệu ảnh được gán nhãn của từng cá nhân để huấn luyện ra mô hình phục vụ cho riêng cá nhân đó. Đôi khi, việc thu thập những dữ liệu được gán nhãn này tương đối tốn kém, thậm chí là bất khả thi trong nhiều trường hợp. Để giải quyết vấn đề này, một vài công trình thậm chí còn đề xuất thay thế bởi các nguồn dữ liệu khác mang tính cá nhân như hành vi sử dụng mạng xã hội.
Vậy là với ba khía cạnh vừa được đề cập, ta đã cùng nhau đi qua một lượt các vấn đề mà các công trình nghiên cứu về bài toán đánh giá thẩm mỹ ảnh đang giải quyết.
Ở phần cuối của bài blog, mình xin chia sẻ một vài suy nghĩ cá nhân khi bắt tay vào nghiên cứu chủ đề này.
Với mình, điểm khó nhất khi nghiên cứu bài toán đánh giá thẩm mỹ ảnh đó là làm sao để có thể định nghĩa được rõ ràng các tiêu chí đánh giá thẩm mỹ; ở đây mình tạm xét những tiêu chí được cho là có thể đánh giá về mặt kỹ thuật. Nhiều khi, cách định nghĩa các tiêu chí thẩm mỹ còn quyết định xem tiêu chí đó có thể đánh giá một cách khách quan hay không. Tiêu chí được định nghĩa càng rõ ràng thì càng dễ để cho con người hay thậm chí là máy móc đánh giá.
Thực sự đến bây giờ mình vẫn nghĩ, liệu rằng các giải pháp sử dụng các mô hình học sâu hiện tại cho việc giải quyết bài toán đánh giá thẩm mỹ, dù cũng đạt được những con số tạm gọi là “ấn tượng”, dù cũng tự nhận là tốt hơn những công trình trước đây ở một mức nào đấy, liệu có thực sự học được cái gì đấy hay không, hay chỉ đơn giản là OVERFITTING trên bộ kiểm định của một bộ dữ liệu công khai nào đấy. Vì đã là mô hình học sâu thì cũng không cần phải quá quan tâm đến bên trong mô hình đang học như thế nào, học được cái gì, chỉ cần cung cấp đầu vào đúng định dạng là sẽ nhận được đầu ra mà thôi.
Cá nhân mình đánh giá, chắc sẽ cần phải một thời gian khá dài nữa trước khi giới nghiên cứu có thể hiểu bài toán đánh giá thẩm mỹ ảnh như những gì họ đã biết về bài toán phân lớp ảnh, bài toán phát hiện đối tượng trong ảnh, v.v., để đạt được đến giai đoạn mà máy móc vượt qua khả năng của con người, đến giai đoạn mà chỉ cần nhích thêm một vài phần trăm, phần nghìn của chỉ số là đã trở thành mô hình SOTA. Hi vọng, ta sẽ được nhìn thấy những giải pháp đột phá cho bài toán này trong khoảng 5–10 năm sắp tới.
Tất cả những ý kiến mình nêu ra ở đây hoàn toàn dựa vào những hiểu biết mà mình có được cùng với những suy luận mang tính chủ quan; do đó, đôi chỗ có thể xuất hiện những nhận định chưa được chính xác. Hi vọng có thể nhận được những ý kiến đóng góp và chia sẻ từ phía cộng đồng để bản thân có thể hiểu sâu hơn về chủ đề này.
[1] Soha Dictionary
[2] Vietnamese Dictionary
[3] Co Viet Dictionary
[4] Advances and Challenges in Computational Image Aesthetics
[5] A Survey on Image Aesthetic Assessment
[6] Visual Categorization with Bags of Keypoints
[7] Exploiting Generative Models in Discriminative Classifiers
[8] ImageNet Classification with Deep Convolutional Neural Networks
[9] Very Deep Convolutional Networks for Large-Scale Image Recognition
[10] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
[11] MobileNetV2: Inverted Residuals and Linear Bottlenecks
[12] Searching for MobileNetV3
[13] Deep Residual Learning for Image Recognition
[14] Learning a Similarity Metric Discriminatively, with Application to Face Verification
[15] Deep metric learning using Triplet network
[16] Learning Deep Features for Discriminative Localization
[17] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
[18] Photo Aesthetics Ranking Network with Attributes and Content Adaptation
[19] Aesthetic Image Captioning From Weakly-Labelled Photographs
[20] NIMA: Neural Image Assessment