
近日,塔林大学数字技术学院学生蒂尔曼·欧姆(Tillmann Ohm)在其博士论文中,提出了一种通过机器视觉视角探索大型视觉集合的创新方法。该方法不直接关注图像本身,而是聚焦于图像的相似性,为理解历史事件、社会生活和艺术表达提供了新的途径。
大型视觉收藏,如绘画、照片等,对于理解社会如何塑造文化意义至关重要。然而,由于其规模庞大和内在复杂性,研究起来颇具挑战。欧姆的方法通过算法感知图像的视觉相似性,并将图像排列在地图上,生成相似性空间。这一空间由图像的数学表示生成,其中两点间的距离反映了图像的相似程度。
欧姆的论文核心贡献在于“馆藏空间导航器”(Collection Space Navigator),这是一个基于浏览器的界面,极大地方便了研究人员和策展人探索馆藏的视觉数据。二维相似性图谱能够揭示出传统元数据或基于关键词方法难以检测的模式、聚类和视觉关系,从而实现开放式、解释性的探究。
该界面支持交互式导航、筛选以及不同模型和方法的比较,适应广泛的研究问题和数据收集类型。通过促进大规模的可视化探索,它将计算分析与人类在文化解读方面的专业知识相结合,为文化遗产收藏的研究提供了新的工具。
“馆藏空间导航器”已应用于一系列文化遗产收藏,并融入跨学科研究工作流程。一项关键案例研究分析了超过20万帧苏联新闻影片,利用该工具揭示了宣传影片中的长期视觉模式。相似图像的集群揭示了反复出现的主题,而其他图像则随着时间的推移而基调发生变化,反映了不断变化的宣传策略。
6月11日,欧姆完成了其博士论文答辩,论文题目为《设计用于研究视觉集合相似性空间的流程和工具》。该研究不仅为文化数据分析领域做出了贡献,还通过挑战机构和算法的权威,使博物馆、学者和公众能够对视觉文化获得新的见解。













京公网安备 11010802043282号