About: Modélisation et développement d'un observatoire générique pour la collecte et l'analyse de données massives   Goto Sponge  NotDistinct  Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

AttributesValues
type
Thesis advisor
Praeses
Author
alternative label
  • Modelling and development of a generic observatory to harvest and analyze big data
dc:subject
  • Informatique
  • Données massives
  • Thèses et écrits académiques
  • Calcul tensoriel
  • Twitter (site web)
  • Modèles de données
  • Tenseurs
  • Théorie des catégories
  • Architectures logicielles
  • Stream processing
preferred label
  • Modélisation et développement d'un observatoire générique pour la collecte et l'analyse de données massives
Language
Subject
dc:title
  • Modélisation et développement d'un observatoire générique pour la collecte et l'analyse de données massives
Degree granting institution
Opponent
note
  • Les données massives fascinent, aussi bien grâce à la valeur qu'elles recèlent pouvant apporter un avantage significatif lors de la prise de décision, qu'à cause des défis que leur exploitation représente. Ces défis sont présents à plusieurs niveaux de la chaîne d'analyse des données. Au niveau de la création des architectures logicielles, le volume et la vélocité requièrent au minimum des performances suffisantes pour ingérer et stocker les données. La variété des données a aussi un impact, puisqu'une multitude de nouveaux systèmes de stockage ont vu le jour, chacun correspondant à un besoin spécifique. Les polystores sont des systèmes intégrant cette diversité, afin de gagner en flexibilité par rapport aux data warehouses, désormais trop rigides. Cette diversification vient toutefois avec un coût, celui de la difficulté à prendre en charge les différents modèles de données lors des analyses.Cette thèse se place dans ce contexte, en proposant la Lambda+ Architecture, un patron d'architecture qui améliore la Lambda Architecture pour l'adapter aux données massives et supporter simultanément l'exactitude des traitements et les calculs en temps réel. La théorie des catégories sert de base formelle pour étudier la conservation des propriétés et ouvre de nouvelles perspectives pour les architectures logicielles qui reposent sur des composition de composants. La seconde contribution est le Tensor Data Model, un modèle pivot agissant comme une surcouche aux polystores. Basé sur les tenseurs, il leur ajoute la notion de schéma, afin de bénéficier d'opérateurs de manipulation de données en plus des opérateurs tensoriels, ainsi que d'un système de sûreté du typage et d'inférence de schéma, en plus de performances satisfaisantes. Chacune de ces contributions bénéficient d'une implémentation, et son regroupées dans un observatoire visant à analyser des données sociales issues de Twitter et à mettre les résultats à disposition d'experts métier.
  • Big Data fascinate, both because of the value they hold that can provide a significant advantage in decision-making, and because of the challenges that their exploitation represents. These challenges are present at several levels of analytics workflows. At the level of the creation of software architectures, the volume and the velocity require at least enough performance to handle the ingestion and storage of data. The data variety has also an impact, as several new storage systems have emerged, each one corresponding to a specific need. The polystores are systems that integrate this diversity, to gain flexibility compared to the data warehouses, now too rigid. However, this diversification comes at a cost, that of the difficulty of taking into consideration the various data models in analyzes.This thesis is placed in this context, and proposes the Lambda+ Architecture, a architecture pattern that improves the Lambda Architecture to make it suitable for processing of Big Data while supporting simultaneously the correctness and the real-time properties. The category theory is used as formal basis to study the conservation of properties and opens new perspectives for software architectures that rely on compositions of components. The second contribution is the Tensor Data Model, a pivot model that act as an overlay to polystores. Based on tensors, it adds the notion of schema to them, to benefit from data manipulation operators on top of tensorial operators, as well from a strong type safety and schema inference systems, with good performance. Each one of these contributions benefit from an implementation, and the are gathered into an observatory that aims to analyze social data from Twitter and to make the results available for business experts.
dc:type
  • Text
http://iflastandar...bd/elements/P1001
rdaw:P10219
  • 2021
has content type
is primary topic of
is rdam:P30135 of
Faceted Search & Find service v1.13.91 as of Aug 16 2018


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data]
OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software