Partitioning the data space before applying hashing using clustering algorithms

Sergey A. Subbotin; Fedir А. Shmalko

doi:10.15276/hait.8.2025.2

PDF (ENGLISH)

Опубліковано: 2025-04-04

DOI: https://doi.org/10.15276/hait.8.2025.2

Ключові слова:

адаптивне кодувальне дерево, кластеризація двоспрямовані кодувальні представлення з трансформерів, зменшення розмірності, наближений пошук найближчих сусідів, мультимодальні дані, кореневий вузол

PDF (ENGLISH)

Як цитувати

(1)

Субботін С. О.; Шмалько Ф. А. " Розділення простору даних перед застосуванням хешування за допомогою алгоритмів кластеризації" Publ. Nauka i Tekhnika. Odesa: Ukraine. Вісник сучасних інформаційних технологій 8 (1), 28–42. https://doi.org/10.15276/hait.8.2025.2.

Sergey A. Subbotin

Національний університет «Запорізька політехніка», вул. Жуковського, 64. Запоріжжя, 69011,Україна

https://orcid.org/0000-0001-5814-8268

Fedir А. Shmalko

Національний університет «Запорізька політехніка», вул. Жуковського, 64. Запоріжжя, 69011,Україна

https://orcid.org/0009-0006-0651-6448

Анотація

Це дослідження представляє методологію локально-чутливого хешування, яка підвищує ефективність пошуку наближених найближчих сусідів шляхом інтеграції адаптивних кодувальних дерев і кластеризації на основі двоспрямовані кодувальні представлення з трансформерів. Запропонований підхід оптимізує розділення простору даних перед застосуванням хешування, що покращує точність пошуку та зменшує обчислювальні витрати. По-перше, мультимодальні дані, такі як зображення та текстові описи, перетворюються у спільний семантичний простір за допомогою попередньо навченої моделі двоспрямовані кодувальні представлення з трансформерів. Це забезпечує крос-модальну узгодженість і сприяє порівнянню у високорозмірному просторі. По-друге, методи зменшення розмірності, такі як уніфіковане апроксимування та проєкція многовидів або t-розподілене вкладення стохастичної близькості, застосовуються для усунення ефекту “прокляття розмірності” при збереженні ключових зв’язків між точками даних. По-третє, створюється адаптивне кодувальне дерево, яке динамічно сегментує простір даних на основі його статистичного розподілу, забезпечуючи ефективну ієрархічну кластеризацію. Кожна точка даних конвертується у символьне представлення, що дозволяє здійснювати швидкий пошук за допомогою структурованого хешування. До того ж, до закодованого набору даних застосовується локально-чутливе хешування, що використовує p-стабільні розподіли для підтримки високої точності пошуку та зменшення розміру індексів. Поєднання кодувальних дерев і локально-чутливе хешування сприяє ефективному відбору кандидатів при мінімізації витрат на пошук. Експериментальне тестування на наборі даних CarDD, який містить зображення пошкоджень автомобілів та їх анотації, демонструє, що запропонований метод перевершує сучасні техніки наближений найближчий сусід як за ефективністю індексації, так і за точністю пошуку. Результати підкреслюють його адаптивність до масштабних, високорозмірних та мультимодальних наборів даних, що робить його придатним для діагностичних моделей і завдань у режимі реального часу.

Downloads

Download data is not yet available.

Номер

Том 8 № 1 (2025): Вісник сучасних інформаційних технологій

Тематика

Розділ

Теоретичні аспекти інформатики, програмування та аналізу даних

Автори

Біографії авторів

Sergey A. Subbotin, Національний університет «Запорізька політехніка», вул. Жуковського, 64. Запоріжжя, 69011,Україна

доктор технічних наук, професор, завідувач кафедри Програмних засобів

Scopus Author ID: 7006531104

Fedir А. Shmalko, Національний університет «Запорізька політехніка», вул. Жуковського, 64. Запоріжжя, 69011,Україна

аспірант кафедри Програмних засобів

Article Sidebar

Як цитувати

Як цитувати

Main Article Content

Анотація

Downloads

Article Details

Номер

Тематика

Розділ

Автори

Біографії авторів

Sergey A. Subbotin, Національний університет «Запорізька політехніка», вул. Жуковського, 64. Запоріжжя, 69011,Україна

Fedir А. Shmalko, Національний університет «Запорізька політехніка», вул. Жуковського, 64. Запоріжжя, 69011,Україна

Схожі статті