Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

BipartiteJoin: Optimal Similarity Join for Fuzzy Bipartite Matching
Autoři: Rozinek Ondřej | Borkovcová Monika | Mareš Jan
Rok: 2024
Druh publikace: článek ve sborníku
Název zdroje: Good Practices and New Perspectives in Information Systems and Technologies : WorldCIST 2024, Volume 6
Název nakladatele: Springer Nature Switzerland AG
Místo vydání: Cham
Strana od-do: 171-180
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze BipartiteJoin: Optimální podobnostní spojení pro Fuzzy Bipartite Matching Spojení podobnosti množin, klíčové pro čištění dat, integraci a systémy doporučení, identifikuje dvojice množin přesahující podobnost práh. Náš přístup kombinuje filtr počtu Q-gramů s maximem vážené bipartitní párování, přesnost a účinnost vyvážení. Filtr Qgram, založený na vztahu mezi podobností Q-gramů a editační vzdálenost, snižuje počet srovnání, pracuje v konstantním čase na předem vytvořeném indexu. To umožňuje zpracování v reálném čase, protože pomocí Fuzzy Bipartite Matching je ověřen pouze minimální počet párů, což výrazně zvyšuje efektivitu podobnostních spojení. podobnostní spojení, Q-gramový filtr, propojení záznamů, rozlišení entit, prostor podobnosti, bipartitní párování
eng BipartiteJoin: Optimal Similarity Join for Fuzzy Bipartite Matching Set similarity join, crucial for data cleaning, integration, and recommendation systems, identifies set pairs exceeding a similarity threshold. Our approach combines a count Q-gram filter with maximum weighted bipartite matching, balancing accuracy and efficiency. The Qgram filter, based on the relationship between Q-gram similarity and edit distance, reduces the number of comparisons, operating in constant time on a pre-built index. This enables real-time processing, as only a minimal number of pairs are verified through Fuzzy Bipartite Matching, significantly enhancing the efficiency of similarity joins. similarity join, Q-gram filter, record linkage, entity resolution, similarity space, bipartite matching