Ce rapport présente une vue d’ensemble structurée des 11
fichiers de données Fitabase/Bellabeat collectés entre le
03/12/2016 et le 04/11/2016.
Il a pour objectif de documenter, pour chaque fichier :
| File | Temporal granularity | Data type | Key variables |
|---|---|---|---|
| dailyActivity_merged.csv | Daily | Overall activity | Daily steps, calories, intensity, distance |
| heartrate_seconds_merged.csv | Second | Heart rate | bpm, timestamp |
| hourlyCalories_merged.csv | Hourly | Energy expenditure | Calories per hour |
| hourlyIntensities_merged.csv | Hourly | Activity intensity | Total, light, moderate, very active intensity |
| hourlySteps_merged.csv | Hourly | Walking activity | Steps per hour |
| minuteCaloriesNarrow_merged.csv | Minute | Fine-grained energy expenditure | Calories per minute |
| minuteIntensitiesNarrow_merged.csv | Minute | Activity intensity | Intensity per minute |
| minuteMETsNarrow_merged.csv | Minute | Expenditure / effort (METs) | METs |
| minuteSleep_merged.csv | Minute | Sleep (stages) | Sleep level, timestamp |
| minuteStepsNarrow_merged.csv | Minute | Steps per minute | Steps per minute |
| weightLogInfo_merged.csv | Event / manual entry | Weight and BMI | Weight, BMI, is_manual |
Ce document sert de référence technique pour orienter les travaux d’exploration des données (EDA), de préparation, de visualisation et d’analyse plus avancée sur le dataset Bellabeat.
Le fichier présente des mesures quotidiennes d’activité au format large, avec une ligne par utilisateur et par date. L’ensemble est complet structurellement, sans valeurs manquantes. Le fichier est exploitable pour une EDA et l’analyse de tendances générales.
Il pourrait y avoir quelques incohérences potentielles: minutes sédentaires bloquées à 1 440, minutes actives très élevées, distances actives atypiques, forte concentration de valeurs nulles.
Le fichier est au format large. La présence d’une seule ligne par jour et par personne, avec de nombreux attributs simultanés, est caractéristique du wide format.
Chaque ligne représente un utilisateur donné
(Id) pour une journée
(ActivityDate), et toutes les mesures quotidiennes sont
placées en colonnes :
TotalSteps, TotalDistance,
TrackerDistanceCaloriesCe fichier est central pour répondre aux questions clés d’un analyste de données :
Comprendre l’activité physique globale
Étudier les niveaux d’activité
Analyser les calories dépensées
Détecter des tendances temporelles
Avec ActivityDate, on peut analyser :
Le fichier est structuré en format long, chaque ligne correspondant à une mesure par seconde avec un identifiant, un horodatage et une valeur de fréquence cardiaque. L’échantillon est restreint à quatorze utilisatrices, générant plus d’un demi-million d’enregistrements.
Les données sont brutes et présentent une couverture temporelle inégale selon les profils. Les valeurs sont complètes et plausibles, mais nécessitent des contrôles d’intégrité.
Ce jeu de données permet d’analyser finement les variations de fréquence cardiaque, de réaliser des agrégations temporelles et de croiser les mesures avec l’activité quotidienne.
Le fichier est au format long.
Chaque ligne représente une mesure de fréquence cardiaque par seconde pour un utilisateur :
Id : identifiant de l’utilisatrice (14
différentes),Time : timestamp (date + heure + seconde),Value : fréquence cardiaque (36 à 185 bpm).Cela génère un volume très important : 510 597 timestamps distincts.
Ce format long est adapté pour le suivi temporel fin, pour calculer des agrégations (par minute / heure / jour), ou pour détecter des schémas d’activité ou de repos.
Comprendre la physiologie quotidienne
Les variations de fréquence cardiaque permettent d’observer :
Complément indispensable des données d’activité
En croisant avec dailyActivity_merged.csv, on peut
analyser :
Travail temporel
Le dataset permet :
Le fichier est structuré en format long, chaque ligne représentant une dépense calorique horaire associée à un identifiant et à un horodatage. L’échantillon comprend 34 utilisatrices pour plus de 700 timestamps distincts.
La couverture horaire propre à chaque profil. Les contrôles
d’intégrité portent sur l’unicité du couple
Id–ActivityHour, la cohérence des valeurs, la
continuité temporelle et le parsing correct des horodatages.
Ce jeu de données permet d’étudier les rythmes journaliers, les pics de dépense énergétique et les comportements horaires, notamment en croisant avec les pas ou la fréquence cardiaque.
Le fichier est en format long.
Chaque ligne correspond à :
Id),ActivityHour,
chaîne de caractères à convertir en datetime),Calories).Caractéristiques :
Ce format long est optimal pour des analyses temporelles par heure : tendances journalières, pics d’activité, comportements horaires, etc.
Ces données sont très utiles pour :
Analyser les rythmes journaliers
Croiser avec d’autres fichiers
Avec hourlySteps_merged.csv :
Steps → effort physique,Calories → dépense énergétique.Avec heartrate_seconds_merged.csv :
Identifier les comportements
Le fichier est structuré en format long, chaque enregistrement associant un identifiant, un horodatage horaire et deux mesures d’intensité agrégées.
L’ensemble est complet, sans valeurs manquantes, et repose sur un score minute par minute compilé sur une heure. Les valeurs, concentrées autour de niveaux faibles, reflètent une activité majoritairement sédentaire ponctuée de quelques épisodes plus soutenus.
Les vérifications recommandées portent sur l’unicité des couples
Id–ActivityHour, la cohérence entre
TotalIntensity et AverageIntensity, la
continuité temporelle et l’identification de valeurs extrêmes.
Le fichier permet d’analyser les rythmes journaliers, de détecter les comportements sédentaires ou actifs et d’établir des corrélations avec les pas, les calories ou la fréquence cardiaque.
Le fichier est en format long.
Chaque ligne représente :
Id, 34
personnes),ActivityHour, texte
à convertir en datetime),TotalIntensity),AverageIntensity).Le profil de colonnes montre :
TotalIntensity varie de 0 à 180,AverageIntensity varie de 0 à 3.Le ratio 180 / 3 = 60 indique que Fitbit encode l’intensité minute par minute, probablement sur une échelle 0–3, puis agrège sur 60 minutes.
Le fichier donne donc une mesure agrégée de l’effort physique horaire.
Ce fichier est central dans l’analyse comportementale horaire :
Comprendre les patterns journaliers d’activité
Identifier les comportements sédentaires
AverageIntensity = 0 → forte
sédentarité.Croiser les données avec :
hourlySteps_merged.csv → intensité vs
nombre de pas,hourlyCalories_merged.csv → intensité
vs dépense énergétique,heartrate_seconds_merged.csv →
intensité vs fréquence cardiaque (corrélation physiologique).Segmentation des utilisatrices
Construction de profils :
Support aux analyses de rythmes circadiens
Identifier :
Le fichier est structuré en format long, chaque enregistrement correspondant à un identifiant, un horodatage horaire et un nombre de pas. L’ensemble est complet, sans valeurs manquantes, et présente une couverture similaire aux autres jeux horaires, avec une distribution très concentrée sur de faibles volumes de pas et quelques pics d’activité.
Les vérifications d’intégrité recommandées portent sur l’unicité des
couples Id–ActivityHour, la continuité des
séries, l’identification des valeurs extrêmes et la cohérence avec les
calories et l’intensité.
Ce fichier est utile pour l’analyse des routines horaires, la détection de comportements sédentaires et la segmentation des utilisatrices, surtout lorsqu’il est croisé avec les intensités, les calories ou la fréquence cardiaque.
Le fichier est en format long.
Chaque ligne correspond à :
ActivityHour, au
format texte),StepTotal).Caractéristiques issues du rapport :
Ce format évènementiel « une ligne = une heure » est optimal pour analyser les comportements journaliers.
Ce fichier est central pour comprendre les comportements horaires.
Analyse des routines quotidiennes
Segmentation des profils d’utilisatrices
Croisement avec :
hourlyIntensities_merged.csv →
comprendre si les pas correspondent à des activités intenses ou
légères,hourlyCalories_merged.csv → calories
brûlées par heure selon les pas,dailyActivity_merged.csv →
reconstituer le total journalier à partir de l’horaire.Préparation à des visualisations structurantes
Le fichier contient des données minute par minute pour 34 utilisatrices, soit environ 45 300 enregistrements structurés en format long. Chaque ligne associe un identifiant, un horodatage et une estimation calorique. Les valeurs sont complètes, sans données manquantes.
Les calories varient de 0 à 23 kcal/min, avec une médiane de 1,22. Les valeurs extrêmes peuvent indiquer une activité intense.
Le format long facilite les analyses temporelles : séries minute par minute, agrégations horaires ou journalières, détection de pics et comparaison entre utilisatrices. L’agrégation améliore la fiabilité, car les mesures minute-level sont instables.
Des vérifications comme l’unicité du couple Id +
timestamp, la continuité temporelle et l’examen des valeurs extrêmes
sont nécessaires.
Croisé avec minuteIntensitiesNarrow,
minuteStepsNarrow, minuteMETsNarrow ou les
fichiers horaires/journaliers, il permet une analyse complète des
comportements et de la dépense énergétique.
Le fichier est en format long (narrow) : 1 ligne = 1 minute d’activité pour une utilisatrice.
Il contient trois colonnes :
Id,Calories.Le fichier couvre 34 utilisatrices sur un mois, avec 45 300 minutes horodatées.
La colonne Calories représente la dépense
énergétique estimée chaque minute par Fitbit.
Statistiques issues du rapport :
Interprétation :
Analyse de l’effort minute par minute
Agrégation à des niveaux supérieurs
hourlyCalories_merged.csv),dailyActivity_merged.csv.Analyse comportementale fine
Le fichier fournit des mesures d’intensité minute par minute pour 34 utilisatrices, en format long, sans valeurs manquantes. Chaque ligne associe un identifiant, un horodatage et un score d’intensité.
L’échelle comprend quatre niveaux (0 à 3). La distribution est très déséquilibrée, dominée par les intensités nulles, ce qui nécessite de vérifier la continuité temporelle et la cohérence des minutes actives.
Le dataset est propre et structuré. Il permet d’analyser les
transitions d’activité, les patterns circadiens et les minutes actives,
surtout via l’agrégation quotidienne ou horaire. Croisé avec
minuteCaloriesNarrow, minuteMETsNarrow ou
dailyActivity_merged.csv, il devient utile pour comprendre
les comportements et identifier les séquences actives ou
sédentaires.
Le fichier est en format long (narrow format), c’est-à-dire : une ligne = 1 minute de mesure pour une utilisatrice.
Le fichier n’a aucune valeur manquante, comme les autres fichiers minute.
La variable Intensity suit une échelle Fitbit minute par
minute :
| Intensité | Signification |
|---|---|
| 0 | Sédentaire / repos |
| 1 | Activité légère |
| 2 | Activité modérée |
| 3 | Activité intense |
C’est un score dérivé, basé sur les mouvements.
Le fichier minuteIntensitiesNarrow_merged.csv est un des
plus informatifs pour les analyses temporelles fines.
Identifier les comportements minute à minute
minuteSleep_merged.csv).Détection des patterns d’activité
Construction d’indicateurs dérivés
Croisements
minuteCaloriesNarrow_merged.csv → intensité ↔︎
dépense énergétique,minuteMETsNarrow_merged.csv → intensité ↔︎
équivalent métabolique,dailyActivity_merged.csv → consolidation
journalière,hourlyIntensities_merged.csv → validation de
l’agrégation horaire.Le fichier regroupe des mesures minute par minute pour 34
utilisatrices, sans valeurs manquantes, avec trois colonnes
(Id, horodatage, METs). Les données couvrent
environ 45 300 minutes et présentent 141 valeurs distinctes pour les
METs.
Le MET (Metabolic Equivalent of Task) est normalement une unité physiologique :
Les statistiques montrent une distribution très asymétrique, avec une médiane à 10 et des valeurs extrêmes pouvant atteindre 189. Les METs élevés traduisent essentiellement des pics d’activité, mais certains niveaux sont physiologiquement impossibles.
Le format long permet des analyses temporelles détaillées : détection des variations minute par minute, construction de profils journaliers, agrégation en MET-minutes et repérage des épisodes d’activité. Les limitations incluent les surévaluations possibles et l’incohérence avec les METs standards.
Le fichier est en format long, avec une granularité minute par minute.
Chaque ligne représente la valeur METs (Metabolic
Equivalent of Task) estimée par Fitbit pour une minute d’activité d’une
utilisatrice.
Statistiques issues du rapport :
Un MET supérieur à 20 est déjà physiologiquement improbable. Un MET à 189 est impossible physiologiquement.
Le fichier est propre, complet, et couvre 34 utilisatrices sur un mois (~ 45k minutes).
Ce fichier est particulier dans le dataset Bellabeat/Fitbit car il
concerne le sommeil minute par minute, avec une
granularité fine. Il contient des données en format long : une ligne par
minute et par utilisatrice. Il comporte 4 colonnes sans valeurs
manquantes : Id (23 utilisatrices seulement),
date (timestamp minute à convertir), value
(état de sommeil codé 1 = asleep, 2 = restless, 3 = awake) et
logId (identifiant de session de sommeil/nuit).
Les données sont organisées par sessions de sommeil via
logId, ce qui permet de reconstruire chaque nuit et de
suivre, minute par minute, les transitions entre sommeil, agitation et
éveil. Elles sont adaptées aux analyses temporelles fines (structure
interne du sommeil, fragmentation, cycles veille/sommeil).
Le fichier permet de calculer des indicateurs clés (durée totale de sommeil, temps éveillé/restless, nombre de réveils, efficacité du sommeil, heures de coucher/lever) et d’étudier les comportements nocturnes et leur variabilité.
Le croisement avec les fichiers d’activité (steps, intensities, calories) ouvre la voie à des analyses sommeil ↔︎ activité physique.
Le fichier est en format long, comme tous les fichiers minute-by-minute.
Seulement 23 utilisatrices ont des données de sommeil (moins que dans les fichiers d’activité et de pas).
Les variables importantes :
Id : identifiant de l’utilisatrice,
date : timestamp minute (à convertir en
POSIXct),
value :
logId : identifiant de session de sommeil (permet de
regrouper les nuits).
Ce fichier permet d’analyser la structure interne du sommeil, minute par minute.
Ce fichier est riche pour comprendre la qualité du sommeil.
Analyser la structure du sommeil
Calculer les indicateurs clés
Étudier les comportements
Le fichier minuteSleep_merged.csv est bien adapté à une
étude exploratoire, car sa granularité minute par minute permet
d’observer les cycles nocturnes, les réveils, les phases de sommeil
agité ou éveillé, et d’analyser la qualité et la régularité du sommeil
des utilisatrices.
Le fichier contient environ 1,4 million de lignes structurées minute par minute pour 34 utilisatrices, sans doublons ni valeurs manquantes.
Chaque enregistrement associe un horodatage et un nombre de pas, avec une distribution fortement asymétrique : la médiane est nulle et les valeurs élevées restent limitées, confirmant une majorité de minutes inactives. Le suivi temporel est continu et cohérent, ce qui permet de reconstituer les séquences d’activité.
Les minutes avec un nombre de pas élevé sont plausibles, mais doivent être croisées avec les intensités, les calories ou les METs pour valider la cohérence.
Le fichier est particulièrement adapté à l’étude des rythmes circadiens, des épisodes actifs, des routines journalières et de la cadence minute par minute, ainsi qu’à la construction d’agrégations horaires ou journalières.
Chaque ligne représente une minute d’activité pour une utilisatrice.
Nombre d’utilisatrices cohérent : 34, ce qui correspond aux fichiers horaires et journaliers → cohérence multi-fichiers.
Format long / narrow
Id, horodatage,
Steps),Résumé statistique des pas :
| Variable | Min | Max | Mean | Median |
|---|---|---|---|---|
| Steps | 0 | 204 | 4.77 | 0 |
Interprétation :
La distribution est donc très asymétrique, caractéristique des données minute-level d’activité physique.
Le fichier minuteStepsNarrow_merged.csv est un fichier
riche et informatif du dataset Fitbit/Bellabeat.
Atouts majeurs
C’est un fichier clé pour l’exploration du comportement utilisateur minute par minute. Il doit être croisé avec intensité, calories, METs et sommeil pour produire des insights fiables.
Le fichier contient des mesures ponctuelles de poids, structurées ligne par ligne avec des valeurs associées comme le BMI ou le pourcentage de masse grasse. L’ensemble est propre en apparence mais très peu fourni : seules quelques utilisatrices ont enregistré des données et la fréquence des mesures est trop faible pour dégager une tendance fiable.
La majorité des colonnes sont vides ou auto-rapportées, ce qui limite fortement la fiabilité analytique.
L’intérêt analytique reste marginal : l’échantillon est trop réduit, la variabilité temporelle quasi nulle et la mesure dépend d’une saisie manuelle souvent imprécise.
Le fichier weightLogInfo_merged.csv contient les
enregistrements de poids saisis par les utilisatrices.
Format : wide. Chaque ligne = une mesure de poids.
Toutes les variables descriptives sont en colonnes, ce qui est adapté aux analyses descriptives simples.
C’est le fichier le moins fourni et le moins exploitable du dataset :
Fat, BMI, etc.).Des données horodatées sont présentes et permettent en théorie d’analyser les variations de poids dans le temps, mais seulement si suffisamment de données existent (ce qui n’est pas le cas ici).
Utilité très limitée dans le cadre Bellabeat Coursera :
En pratique :