Introduction

Ce rapport présente une vue d’ensemble structurée des 11 fichiers de données Fitabase/Bellabeat collectés entre le 03/12/2016 et le 04/11/2016.
Il a pour objectif de documenter, pour chaque fichier :

Overview of the 11 Bellabeat data files
File Temporal granularity Data type Key variables
dailyActivity_merged.csv Daily Overall activity Daily steps, calories, intensity, distance
heartrate_seconds_merged.csv Second Heart rate bpm, timestamp
hourlyCalories_merged.csv Hourly Energy expenditure Calories per hour
hourlyIntensities_merged.csv Hourly Activity intensity Total, light, moderate, very active intensity
hourlySteps_merged.csv Hourly Walking activity Steps per hour
minuteCaloriesNarrow_merged.csv Minute Fine-grained energy expenditure Calories per minute
minuteIntensitiesNarrow_merged.csv Minute Activity intensity Intensity per minute
minuteMETsNarrow_merged.csv Minute Expenditure / effort (METs) METs
minuteSleep_merged.csv Minute Sleep (stages) Sleep level, timestamp
minuteStepsNarrow_merged.csv Minute Steps per minute Steps per minute
weightLogInfo_merged.csv Event / manual entry Weight and BMI Weight, BMI, is_manual

Ce document sert de référence technique pour orienter les travaux d’exploration des données (EDA), de préparation, de visualisation et d’analyse plus avancée sur le dataset Bellabeat.

1 File: dailyActivity_merged.csv

→ Link to profiling report

1.1 Résumé général

Le fichier présente des mesures quotidiennes d’activité au format large, avec une ligne par utilisateur et par date. L’ensemble est complet structurellement, sans valeurs manquantes. Le fichier est exploitable pour une EDA et l’analyse de tendances générales.

Il pourrait y avoir quelques incohérences potentielles: minutes sédentaires bloquées à 1 440, minutes actives très élevées, distances actives atypiques, forte concentration de valeurs nulles.

1.2 Structure des données

Le fichier est au format large. La présence d’une seule ligne par jour et par personne, avec de nombreux attributs simultanés, est caractéristique du wide format.

Chaque ligne représente un utilisateur donné (Id) pour une journée (ActivityDate), et toutes les mesures quotidiennes sont placées en colonnes :

  • TotalSteps, TotalDistance, TrackerDistance
  • Distances par niveau d’activité
  • Minutes actives / sédentaires
  • Calories

1.3 Apport analytique du fichier

Ce fichier est central pour répondre aux questions clés d’un analyste de données :

Comprendre l’activité physique globale

  • Nombre de pas, distances quotidiennes, intensité globale.

Étudier les niveaux d’activité

  • Minutes dans chaque zone active → utile pour segmenter les comportements.

Analyser les calories dépensées

  • Permet de relier dépense énergétique ↔︎ activité.

Détecter des tendances temporelles

Avec ActivityDate, on peut analyser :

  • L’évolution sur la semaine,
  • Une éventuelle saisonnalité,
  • Les différences de comportements en semaine vs week-end.

↑ Return to the beginning

2 File: heartrate_seconds_merged.csv

→ Link to profiling report

2.1 Résumé général

Le fichier est structuré en format long, chaque ligne correspondant à une mesure par seconde avec un identifiant, un horodatage et une valeur de fréquence cardiaque. L’échantillon est restreint à quatorze utilisatrices, générant plus d’un demi-million d’enregistrements.

Les données sont brutes et présentent une couverture temporelle inégale selon les profils. Les valeurs sont complètes et plausibles, mais nécessitent des contrôles d’intégrité.

Ce jeu de données permet d’analyser finement les variations de fréquence cardiaque, de réaliser des agrégations temporelles et de croiser les mesures avec l’activité quotidienne.

2.2 Structure des données

Le fichier est au format long.

Chaque ligne représente une mesure de fréquence cardiaque par seconde pour un utilisateur :

  • Id : identifiant de l’utilisatrice (14 différentes),
  • Time : timestamp (date + heure + seconde),
  • Value : fréquence cardiaque (36 à 185 bpm).

Cela génère un volume très important : 510 597 timestamps distincts.

Ce format long est adapté pour le suivi temporel fin, pour calculer des agrégations (par minute / heure / jour), ou pour détecter des schémas d’activité ou de repos.

2.3 Apport analytique du fichier

Comprendre la physiologie quotidienne

Les variations de fréquence cardiaque permettent d’observer :

  • Les cycles veille / sommeil,
  • Les pics d’activité,
  • La récupération post-effort,
  • Les périodes de repos.

Complément indispensable des données d’activité

En croisant avec dailyActivity_merged.csv, on peut analyser :

  • La relation intensité d’activité ↔︎ fréquence cardiaque,
  • La cohérence physiologique des niveaux d’activité mesurés.

Travail temporel

Le dataset permet :

  • Des agrégations par minute / heure,
  • La construction de séries temporelles,
  • Des analyses circadiennes (rythme biologique journalier).

↑ Return to the beginning

3 File: hourlyCalories_merged.csv

→ Link to profiling report

3.1 Résumé général

Le fichier est structuré en format long, chaque ligne représentant une dépense calorique horaire associée à un identifiant et à un horodatage. L’échantillon comprend 34 utilisatrices pour plus de 700 timestamps distincts.

La couverture horaire propre à chaque profil. Les contrôles d’intégrité portent sur l’unicité du couple IdActivityHour, la cohérence des valeurs, la continuité temporelle et le parsing correct des horodatages.

Ce jeu de données permet d’étudier les rythmes journaliers, les pics de dépense énergétique et les comportements horaires, notamment en croisant avec les pas ou la fréquence cardiaque.

3.2 Structure des données

Le fichier est en format long.

Chaque ligne correspond à :

  • Une utilisatrice (Id),
  • Une heure précise (ActivityHour, chaîne de caractères à convertir en datetime),
  • Les calories brûlées durant cette heure (Calories).

Caractéristiques :

  • 34 utilisatrices distinctes,
  • 755 timestamps horaires distincts,
  • 444 valeurs distinctes de calories.

Ce format long est optimal pour des analyses temporelles par heure : tendances journalières, pics d’activité, comportements horaires, etc.

3.3 Apport analytique du fichier

Ces données sont très utiles pour :

Analyser les rythmes journaliers

  • Pics de dépense calorique,
  • Habitudes d’activité par heure,
  • Comparaison semaine / week-end.

Croiser avec d’autres fichiers

Avec hourlySteps_merged.csv :

  • Steps → effort physique,
  • Calories → dépense énergétique.

Avec heartrate_seconds_merged.csv :

  • Croiser fréquence cardiaque ↔︎ calories heure par heure,
  • Détecter des corrélations entre fréquence cardiaque et calories brûlées.

Identifier les comportements

  • Utilisatrices sédentaires vs actives,
  • Analyse de la charge d’activité dans la journée,
  • Création de profils de dépense énergétique (regroupement des utilisatrices selon leur niveau d’activité quotidienne).

↑ Return to the beginning

4 File: hourlyIntensities_merged.csv

→ Link to profiling report

4.1 Résumé général

Le fichier est structuré en format long, chaque enregistrement associant un identifiant, un horodatage horaire et deux mesures d’intensité agrégées.

L’ensemble est complet, sans valeurs manquantes, et repose sur un score minute par minute compilé sur une heure. Les valeurs, concentrées autour de niveaux faibles, reflètent une activité majoritairement sédentaire ponctuée de quelques épisodes plus soutenus.

Les vérifications recommandées portent sur l’unicité des couples IdActivityHour, la cohérence entre TotalIntensity et AverageIntensity, la continuité temporelle et l’identification de valeurs extrêmes.

Le fichier permet d’analyser les rythmes journaliers, de détecter les comportements sédentaires ou actifs et d’établir des corrélations avec les pas, les calories ou la fréquence cardiaque.

4.2 Structure des données

Le fichier est en format long.

Chaque ligne représente :

  • Une utilisatrice (Id, 34 personnes),
  • Une heure précise (ActivityHour, texte à convertir en datetime),
  • Une intensité totale de l’activité durant cette heure (TotalIntensity),
  • L’intensité moyenne par minute (AverageIntensity).

Le profil de colonnes montre :

  • TotalIntensity varie de 0 à 180,
  • AverageIntensity varie de 0 à 3.

Le ratio 180 / 3 = 60 indique que Fitbit encode l’intensité minute par minute, probablement sur une échelle 0–3, puis agrège sur 60 minutes.

Le fichier donne donc une mesure agrégée de l’effort physique horaire.

4.3 Apport analytique du fichier

Ce fichier est central dans l’analyse comportementale horaire :

Comprendre les patterns journaliers d’activité

  • Heures les plus actives,
  • Creux d’activité,
  • Routines du matin ou du soir.

Identifier les comportements sédentaires

  • Grand nombre d’heures avec AverageIntensity = 0 → forte sédentarité.

Croiser les données avec :

  • hourlySteps_merged.csv → intensité vs nombre de pas,
  • hourlyCalories_merged.csv → intensité vs dépense énergétique,
  • heartrate_seconds_merged.csv → intensité vs fréquence cardiaque (corrélation physiologique).

Segmentation des utilisatrices

Construction de profils :

  • Utilisatrices très actives : heures intenses régulières,
  • Utilisatrices modérées : activité intermittente,
  • Utilisatrices sédentaires : intensité quasi nulle.

Support aux analyses de rythmes circadiens

Identifier :

  • Pics d’énergie,
  • Périodes de repos,
  • Rythme veille/sommeil indirect (faible intensité la nuit).

↑ Return to the beginning

5 File: hourlySteps_merged.csv

→ Link to profiling report

5.1 Résumé général

Le fichier est structuré en format long, chaque enregistrement correspondant à un identifiant, un horodatage horaire et un nombre de pas. L’ensemble est complet, sans valeurs manquantes, et présente une couverture similaire aux autres jeux horaires, avec une distribution très concentrée sur de faibles volumes de pas et quelques pics d’activité.

Les vérifications d’intégrité recommandées portent sur l’unicité des couples IdActivityHour, la continuité des séries, l’identification des valeurs extrêmes et la cohérence avec les calories et l’intensité.

Ce fichier est utile pour l’analyse des routines horaires, la détection de comportements sédentaires et la segmentation des utilisatrices, surtout lorsqu’il est croisé avec les intensités, les calories ou la fréquence cardiaque.

5.2 Structure des données

Le fichier est en format long.

Chaque ligne correspond à :

  • Un Id (utilisatrice),
  • Une heure précise (ActivityHour, au format texte),
  • Un nombre de pas réalisés durant cette heure (StepTotal).

Caractéristiques issues du rapport :

  • 34 utilisatrices, comme les autres fichiers horaires,
  • 755 timestamps horaires distincts,
  • Aucune valeur manquante.

Ce format évènementiel « une ligne = une heure » est optimal pour analyser les comportements journaliers.

5.3 Apport analytique du fichier

Ce fichier est central pour comprendre les comportements horaires.

Analyse des routines quotidiennes

  • Pics d’activité le matin ou le soir,
  • Marche durant la pause de midi,
  • Périodes de sédentarité prolongée.

Segmentation des profils d’utilisatrices

  • Très actives,
  • Modérément actives,
  • Sédentaires.

Croisement avec :

  • hourlyIntensities_merged.csv → comprendre si les pas correspondent à des activités intenses ou légères,
  • hourlyCalories_merged.csv → calories brûlées par heure selon les pas,
  • dailyActivity_merged.csv → reconstituer le total journalier à partir de l’horaire.

Préparation à des visualisations structurantes

  • Heatmaps hebdomadaires (jours × heures),
  • Graphiques de tendance horaire,
  • Analyse circadienne complète.

↑ Return to the beginning

6 File: minuteCaloriesNarrow_merged.csv

→ Link to profiling report

6.1 Résumé général

Le fichier contient des données minute par minute pour 34 utilisatrices, soit environ 45 300 enregistrements structurés en format long. Chaque ligne associe un identifiant, un horodatage et une estimation calorique. Les valeurs sont complètes, sans données manquantes.

Les calories varient de 0 à 23 kcal/min, avec une médiane de 1,22. Les valeurs extrêmes peuvent indiquer une activité intense.

Le format long facilite les analyses temporelles : séries minute par minute, agrégations horaires ou journalières, détection de pics et comparaison entre utilisatrices. L’agrégation améliore la fiabilité, car les mesures minute-level sont instables.

Des vérifications comme l’unicité du couple Id + timestamp, la continuité temporelle et l’examen des valeurs extrêmes sont nécessaires.

Croisé avec minuteIntensitiesNarrow, minuteStepsNarrow, minuteMETsNarrow ou les fichiers horaires/journaliers, il permet une analyse complète des comportements et de la dépense énergétique.

6.2 Structure des données

Le fichier est en format long (narrow) : 1 ligne = 1 minute d’activité pour une utilisatrice.

Il contient trois colonnes :

  • Id,
  • Horodatage minute,
  • Calories.

Le fichier couvre 34 utilisatrices sur un mois, avec 45 300 minutes horodatées.

La colonne Calories représente la dépense énergétique estimée chaque minute par Fitbit.

Statistiques issues du rapport :

  • Min = 0,
  • Max = 23.01,
  • Moyenne = 1.57,
  • Médiane = 1.22.

Interprétation :

  • Une minute complètement inactive → ~ 0 à 1 kcal,
  • Une activité modérée → ~ 2 à 5 kcal/min,
  • Une activité intense → ~ 6 à 10 kcal/min,
  • La valeur maximale de 23 kcal/min suggère un effort très intense (à interpréter avec prudence).

6.3 Apport analytique du fichier

Analyse de l’effort minute par minute

  • Détecter les pics d’activité,
  • Repérer les périodes d’activité intense,
  • Analyser les cycles jour/nuit.

Agrégation à des niveaux supérieurs

  • Calories par heure (vérification contre hourlyCalories_merged.csv),
  • Calories par jour pour valider dailyActivity_merged.csv.

Analyse comportementale fine

  • Routine quotidienne (temps actif vs inactif),
  • Comparaison du style de vie entre utilisatrices,
  • Construction d’indicateurs dérivés (calories actives quotidiennes, charge d’entraînement, etc.).

↑ Return to the beginning

7 File: minuteIntensitiesNarrow_merged.csv

→ Link to profiling report

7.1 Résumé général

Le fichier fournit des mesures d’intensité minute par minute pour 34 utilisatrices, en format long, sans valeurs manquantes. Chaque ligne associe un identifiant, un horodatage et un score d’intensité.

L’échelle comprend quatre niveaux (0 à 3). La distribution est très déséquilibrée, dominée par les intensités nulles, ce qui nécessite de vérifier la continuité temporelle et la cohérence des minutes actives.

Le dataset est propre et structuré. Il permet d’analyser les transitions d’activité, les patterns circadiens et les minutes actives, surtout via l’agrégation quotidienne ou horaire. Croisé avec minuteCaloriesNarrow, minuteMETsNarrow ou dailyActivity_merged.csv, il devient utile pour comprendre les comportements et identifier les séquences actives ou sédentaires.

7.2 Structure des données

Le fichier est en format long (narrow format), c’est-à-dire : une ligne = 1 minute de mesure pour une utilisatrice.

Le fichier n’a aucune valeur manquante, comme les autres fichiers minute.

La variable Intensity suit une échelle Fitbit minute par minute :

Intensité Signification
0 Sédentaire / repos
1 Activité légère
2 Activité modérée
3 Activité intense

C’est un score dérivé, basé sur les mouvements.

7.3 Apport analytique du fichier

Le fichier minuteIntensitiesNarrow_merged.csv est un des plus informatifs pour les analyses temporelles fines.

Identifier les comportements minute à minute

  • Transitions repos → activité,
  • Activité sporadique vs activité continue,
  • Agitation nocturne (corrélations possibles avec minuteSleep_merged.csv).

Détection des patterns d’activité

  • Analyse circadienne à haute résolution,
  • Heatmaps minute par minute,
  • Analyse des pics d’intensité.

Construction d’indicateurs dérivés

  • Total de minutes actives par jour,
  • Ratio minutes actives / minutes sédentaires,
  • Durée des épisodes actifs consécutifs.

Croisements

  • Avec minuteCaloriesNarrow_merged.csv → intensité ↔︎ dépense énergétique,
  • Avec minuteMETsNarrow_merged.csv → intensité ↔︎ équivalent métabolique,
  • Avec dailyActivity_merged.csv → consolidation journalière,
  • Avec hourlyIntensities_merged.csv → validation de l’agrégation horaire.

↑ Return to the beginning

8 File: minuteMETsNarrow_merged.csv

→ Link to profiling report

8.1 Résumé général

Le fichier regroupe des mesures minute par minute pour 34 utilisatrices, sans valeurs manquantes, avec trois colonnes (Id, horodatage, METs). Les données couvrent environ 45 300 minutes et présentent 141 valeurs distinctes pour les METs.

Le MET (Metabolic Equivalent of Task) est normalement une unité physiologique :

  • 1 MET = métabolisme de base (repos),
  • 3 METs = marche modérée,
  • 6 METs = course légère,
  • > 10 METs = activité intense.

Les statistiques montrent une distribution très asymétrique, avec une médiane à 10 et des valeurs extrêmes pouvant atteindre 189. Les METs élevés traduisent essentiellement des pics d’activité, mais certains niveaux sont physiologiquement impossibles.

Le format long permet des analyses temporelles détaillées : détection des variations minute par minute, construction de profils journaliers, agrégation en MET-minutes et repérage des épisodes d’activité. Les limitations incluent les surévaluations possibles et l’incohérence avec les METs standards.

8.2 Structure des données

Le fichier est en format long, avec une granularité minute par minute.

Chaque ligne représente la valeur METs (Metabolic Equivalent of Task) estimée par Fitbit pour une minute d’activité d’une utilisatrice.

Statistiques issues du rapport :

  • Min = 0,
  • Max = 189,
  • Moyenne = 14.23,
  • Médiane = 10.

Un MET supérieur à 20 est déjà physiologiquement improbable. Un MET à 189 est impossible physiologiquement.

Le fichier est propre, complet, et couvre 34 utilisatrices sur un mois (~ 45k minutes).

8.3 Apport analytique du fichier

  • Calcul des zones d’effort (repos, léger, modéré, intense) à partir des METs (en filtrant ou plafonnant les valeurs extrêmes).
  • Comparaison entre utilisatrices ou entre journées sur la base d’un indicateur physiologique standardisé (METs).
  • Validation de la cohérence entre METs, intensité, pas et calories.
  • Construction d’indicateurs comme les MET-minutes journaliers (somme des METs sur une journée), utiles pour des recommandations d’activité physique.

↑ Return to the beginning

9 File: minuteSleep_merged.csv

→ Link to profiling report

9.1 Résumé général

Ce fichier est particulier dans le dataset Bellabeat/Fitbit car il concerne le sommeil minute par minute, avec une granularité fine. Il contient des données en format long : une ligne par minute et par utilisatrice. Il comporte 4 colonnes sans valeurs manquantes : Id (23 utilisatrices seulement), date (timestamp minute à convertir), value (état de sommeil codé 1 = asleep, 2 = restless, 3 = awake) et logId (identifiant de session de sommeil/nuit).

Les données sont organisées par sessions de sommeil via logId, ce qui permet de reconstruire chaque nuit et de suivre, minute par minute, les transitions entre sommeil, agitation et éveil. Elles sont adaptées aux analyses temporelles fines (structure interne du sommeil, fragmentation, cycles veille/sommeil).

Le fichier permet de calculer des indicateurs clés (durée totale de sommeil, temps éveillé/restless, nombre de réveils, efficacité du sommeil, heures de coucher/lever) et d’étudier les comportements nocturnes et leur variabilité.

Le croisement avec les fichiers d’activité (steps, intensities, calories) ouvre la voie à des analyses sommeil ↔︎ activité physique.

9.2 Structure des données

Le fichier est en format long, comme tous les fichiers minute-by-minute.

  • Une ligne = 1 minute de mesure de sommeil pour une utilisatrice.

Seulement 23 utilisatrices ont des données de sommeil (moins que dans les fichiers d’activité et de pas).

Les variables importantes :

  • Id : identifiant de l’utilisatrice,

  • date : timestamp minute (à convertir en POSIXct),

  • value :

    • 1 → Asleep,
    • 2 → Restless,
    • 3 → Awake,
  • logId : identifiant de session de sommeil (permet de regrouper les nuits).

Ce fichier permet d’analyser la structure interne du sommeil, minute par minute.

9.3 Apport analytique du fichier

Ce fichier est riche pour comprendre la qualité du sommeil.

Analyser la structure du sommeil

  • Périodes “asleep”, “restless”, “awake” minute par minute,
  • Fragmentation du sommeil,
  • Cycles veille/sommeil.

Calculer les indicateurs clés

  • Durée totale de sommeil,
  • Durée éveillé / restless,
  • Nombre de réveils nocturnes,
  • Efficacité du sommeil (%),
  • Heures d’endormissement / réveil.

Étudier les comportements

  • Heures de coucher et lever,
  • Variabilité d’une nuit à l’autre,
  • Impact de l’activité physique sur la qualité du sommeil (corrélations possibles avec steps/intensities/calories).

Le fichier minuteSleep_merged.csv est bien adapté à une étude exploratoire, car sa granularité minute par minute permet d’observer les cycles nocturnes, les réveils, les phases de sommeil agité ou éveillé, et d’analyser la qualité et la régularité du sommeil des utilisatrices.

↑ Return to the beginning

10 File: minuteStepsNarrow_merged.csv

→ Link to profiling report

10.1 Résumé général

Le fichier contient environ 1,4 million de lignes structurées minute par minute pour 34 utilisatrices, sans doublons ni valeurs manquantes.

Chaque enregistrement associe un horodatage et un nombre de pas, avec une distribution fortement asymétrique : la médiane est nulle et les valeurs élevées restent limitées, confirmant une majorité de minutes inactives. Le suivi temporel est continu et cohérent, ce qui permet de reconstituer les séquences d’activité.

Les minutes avec un nombre de pas élevé sont plausibles, mais doivent être croisées avec les intensités, les calories ou les METs pour valider la cohérence.

Le fichier est particulièrement adapté à l’étude des rythmes circadiens, des épisodes actifs, des routines journalières et de la cadence minute par minute, ainsi qu’à la construction d’agrégations horaires ou journalières.

10.2 Structure des données

Chaque ligne représente une minute d’activité pour une utilisatrice.

Nombre d’utilisatrices cohérent : 34, ce qui correspond aux fichiers horaires et journaliers → cohérence multi-fichiers.

Format long / narrow

  • Nombre d’observations : 1 445 040,
  • Environ 45 300 timestamps distincts (granularité minute × utilisatrices sur un mois),
  • Nombre de colonnes : 3 (Id, horodatage, Steps),
  • 0 doublons détectés,
  • 0 valeurs manquantes dans toutes les colonnes.

Résumé statistique des pas :

Variable Min Max Mean Median
Steps 0 204 4.77 0

Interprétation :

  • Min = 0 → minutes totalement inactives,
  • Max = 204 → ~ 200 pas/min ≈ marche rapide,
  • Moyenne = 4.77 pas/min → les utilisatrices étaient globalement sédentaires,
  • Médiane = 0 → plus de 50 % du temps = aucune marche minute par minute.

La distribution est donc très asymétrique, caractéristique des données minute-level d’activité physique.

10.3 Apport analytique du fichier

Le fichier minuteStepsNarrow_merged.csv est un fichier riche et informatif du dataset Fitbit/Bellabeat.

Atouts majeurs

  • Granularité minute,
  • Dataset complet (0 NA, 0 doublons),
  • Cohérence temporelle,
  • Grande pertinence pour des analyses comportementales fines,
  • Support idéal pour des visualisations (heatmaps, séries temporelles).

C’est un fichier clé pour l’exploration du comportement utilisateur minute par minute. Il doit être croisé avec intensité, calories, METs et sommeil pour produire des insights fiables.

↑ Return to the beginning

11 File: weightLogInfo_merged.csv

→ Link to profiling report

11.1 Résumé général

Le fichier contient des mesures ponctuelles de poids, structurées ligne par ligne avec des valeurs associées comme le BMI ou le pourcentage de masse grasse. L’ensemble est propre en apparence mais très peu fourni : seules quelques utilisatrices ont enregistré des données et la fréquence des mesures est trop faible pour dégager une tendance fiable.

La majorité des colonnes sont vides ou auto-rapportées, ce qui limite fortement la fiabilité analytique.

L’intérêt analytique reste marginal : l’échantillon est trop réduit, la variabilité temporelle quasi nulle et la mesure dépend d’une saisie manuelle souvent imprécise.

11.2 Structure des données

Le fichier weightLogInfo_merged.csv contient les enregistrements de poids saisis par les utilisatrices.

Format : wide. Chaque ligne = une mesure de poids.

Toutes les variables descriptives sont en colonnes, ce qui est adapté aux analyses descriptives simples.

C’est le fichier le moins fourni et le moins exploitable du dataset :

  • Très peu d’enregistrements (souvent < 70 au total),
  • Seules ~ 8 utilisatrices ont saisi leur poids,
  • Beaucoup de colonnes sont vides ou rarement renseignées (Fat, BMI, etc.).

Des données horodatées sont présentes et permettent en théorie d’analyser les variations de poids dans le temps, mais seulement si suffisamment de données existent (ce qui n’est pas le cas ici).

11.3 Apport analytique du fichier

Utilité très limitée dans le cadre Bellabeat Coursera :

  • Évaluation ponctuelle de l’IMC (BMI),
  • Éventuelle segmentation d’utilisatrices par catégorie de poids, si les données étaient plus complètes,
  • Corrélation très rudimentaire entre poids et niveau d’activité physique.

En pratique :

  • Trop peu de données,
  • Trop peu d’utilisatrices,
  • Valeurs souvent auto-rapportées,
  • Pas de séries temporelles exploitables.

↑ Return to the beginning