Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

A Novel Regression Approach: Analyzing Textual Data in Similarity Space
Rok: 2024
Druh publikace: článek ve sborníku
Název zdroje: Proceedings of the 35th Conference of Open Innovations Association FRUCT
Název nakladatele: IEEE (Institute of Electrical and Electronics Engineers)
Místo vydání: New York
Strana od-do: 596-603
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Nový regresní přístup: Analýza textových dat v podobnostním prostoru Rozšiřování textových dat, zejména ve formě databázových záznamů, vyžaduje inovativní metody analýzy, které jdou nad rámec tradičních numerických technik. Zatímco regrese metodou nejmenších čtverců je základním kamenem kvantitativní analýzy dat, její použitelnost na textová data zůstává z velké části neprozkoumaná. Cílem této studie je překlenout tuto mezeru zavedením metody nejmenších čtverců založené na podobnosti a přizpůsobené textovým datům. Na základě principů měření podobnosti v textu, jako je sémantická a syntaktická blízkost, navrhujeme rozšíření konvenčního rámce metody nejmenších čtverců. Náš přístup zahrnuje do objektivní funkce metody nejmenších čtverců metriky podobnosti založené na slovech, což umožňuje analyzovat textová data způsobem, který je v souladu s jejich kvalitativní povahou. Vyvinutá metodika je důsledně vyhodnocena na základě syntetických i reálných záznamů v databázích a prokazuje svou účinnost při odhalování složitých vztahů v rámci textových dat. Naše zjištění otevírají nové cesty pro analýzu textových dat, neboť spojují přesnost klasických statistických metod s jemnostmi textové podobnosti. podobnostní prostor;regresní přístup;databazové systémy
eng A Novel Regression Approach: Analyzing Textual Data in Similarity Space The proliferation of textual data, notably in the form of database records, calls for innovative methods of analysis that go beyond traditional numerical techniques. While least squares regression has been a cornerstone in quantitative data analysis, its applicability to textual data remains largely unexplored. This study aims to bridge this gap by introducing a similarity-based least squares method tailored for textual data. Drawing on the principles of similarity measures in text, such as semantic and syntactic closeness, we propose an extension to the conventional least squares framework. Our approach incorporates word-based similarity metrics into the least squares objective function, enabling the analysis of textual data in a manner coherent with its qualitative nature. The developed methodology is rigorously evaluated using both synthetic and real-world database records, demonstrating its efficacy in uncovering intricate relationships within textual data. Our findings open new avenues for textual data analysis, blending the precision of classical statistical methods with the subtleties of text similarity. similarity space;regression approach;database system