Task Oriented Web Page Segmentation
Segmentation des pages web axée sur les tâches
Résumé
With the regular development of the internet, the accessibility of web sites to every one is essential but accessibility of web pages for the visually disabled people is a challenge in itself. In general, a person with sight uses a complex and non-linear reading strategy such as skimming which is to get a global overview, and scanning which is to jump from one area of interest to another. The skimming and scanning processes are based on several factors like layout, logical structure and typographic effects which are unavailable the non visual environment thus making skimming and scanning a rather difficult task.The work presented in this dissertation focuses on the segmentation of web pages for the task of non visual skimming and scanning. For the purpose of experimentation the framework of TAG THUNDER is used.In this dissertation, a clustering technique for the purpose of segmentation is employed allowing to satisfy the task oriented criteria. The very well established Kmeans clustering technique has been used for experimentation with task oriented adaptations. A variation of the Kmeans algorithm has been proposed called F-Kmeans which uses the metaphor of the physical force of attraction. A task-oriented clustering technique known as Guided Expansion(GE) has been developed. This clustering technique follows a sort of hierarchical expansion using the features and expansion of the zones based on local decisions unlike Kmeans. As a variation of GE the force measure as the distance measure known as F-Guided Expansion.The algorithms have been tested with different positions of initial seeds following reading strategies used on the web and also using pre-clustering techniques to identify probable zones.For the purpose of experimentation, the algorithms with the various positioning methods are tested with 900 web pages belonging to three different categories – 300 web pages from Tourism, 300 web pages from E-commerce and 300 web pages from News. The evaluation is done in two ways - manual and automatic. For manual evaluation, a ground truth has been created for 50 web pages and standard cluster metrics are used for evaluation. Based on expert opinion, automatic metrics have been created to enable evaluation of huge corpus. In both the manual and automatic evaluations, GE with diagonally positioned seeds proves to outperform other algorithms.
Avec le développement régulier de l'internet, l'accessibilité des sites web à tous est essentielle mais l'accessibilité des pages web pour les personnes malvoyantes est un défi en soi. En général, une personne voyante utilise une stratégie de lecture complexe et non linéaire, comme le "skimming", qui consiste à obtenir une vue d'ensemble, et le "scanning", qui consiste à passer d'un domaine d'intérêt à un autre. Les processus d'exploration et de balayage sont basés sur plusieurs facteurs tels que la mise en page, la structure logique et les effets typographiques qui ne sont pas disponibles dans l'environnement non visuel, ce qui rend l'exploration et le balayage plutôt difficile.Le travail présenté dans cette thèse se concentre sur la segmentation des pages web pour rendre possible ces tâches de "skimming" et "scanning" non visuels. Le cadre de TAG THUNDER est utilisé à des fins d'expérimentation.Dans cette thèse, nous proposons une approche par clustering pour la segmentation, afin de satisfaire les critères imposés par la tâche. La technique bien établie de clustering Kmeans a été choisie pour expérimenter plusieurs adaptations guidées par la tâche. Une première variante de l'algorithme de Kmeans a été proposée, appelée F-Kmeans, qui utilise la métaphore de la force physique d'attraction des corps massifs. Nous proposons aussi une nouvelle technique de regroupement guidée par la tâche, intitulée Guided Expansion (GE). Cette technique est une sorte d'expansion hiérarchique où l'expansion de chaque zone (cluster) se fonde sur des décisions locales, contrairement à la méthode Kmeans. GE utilise en particulier une distance entre éléments. Une variante exploitant la mesure de force d'attraction a aussi été testée (F-Guided Expansion).Les algorithmes ont été testés avec différentes positions de graines initiales en suivant les stratégies de lecture utilisées sur le web et en utilisant également des techniques de pré-classement pour identifier les zones probables.Pour les expérimentations, les algorithmes avec les différentes méthodes de positionnement sont testés avec 900 pages web appartenant à trois catégories différentes - 300 pages web du tourisme, 300 pages web du commerce électronique et 300 pages web des actualités. L'évaluation se fait de deux manières - manuelle et automatique. Pour l'évaluation manuelle, un corpus de référence (ground truth) a été créé pour 50 pages web et des mesures de clustering standard sont utilisées pour l'évaluation. Sur la base de l'avis d'experts, des mesures automatiques ont été créées pour permettre l'évaluation automatique sur de grands corpus sans besoin de référence. Dans les évaluations manuelles et automatiques, GE avec des graines positionnées en diagonale s'avère surpasser les autres algorithmes.
Fichier principal
sygal_fusion_28605-andrew-judith_jeyafreeda_6233304559fe0.pdf (8.57 Mo)
Télécharger le fichier
Origine | Version validée par le jury (STAR) |
---|