library(tidyverse)
library(nanoparquet)
<- file.path("data", "kuma_data.parquet") |>
kuma_data read_parquet()
「クマ×共生ハッカソン ~あなたのアイデアが石川の安全を変える~ 第1回 課題発見編」(石川県・金沢市共催)に向けた、クマ出没データの前処理ができたということで、まずは時系列でデータを見ていきたいと思います。
準備
まずはパッケージとデータの読み込みです。データは、前処理で作成しておいたParquet形式のファイルから読み込みます。
可視化
どの時期にクマ出没情報が多いのかを年ごとにグラフにします。横軸を1月1日からの日数として、1日あたりのクマ出没情報の件数を色で表現することにします。
そのための関数を定義します。
<- function(data) {
plot_daily |>
data ::filter(!is.na(`出没日`)) |>
dplyr::mutate(yday = lubridate::yday(`出没日`))|>
dplyr::group_by(`出没年`, yday) |>
dplyr::summarise(N = n(), .groups = "drop") |>
dplyrggplot() +
geom_segment(aes(x = yday, xend = yday,
y = 0, yend = 1, color = N)) +
scale_x_continuous(name = "1月1日からの日数",
breaks = seq(0, 360, 60)) +
scale_y_continuous(name = "", breaks = NULL) +
scale_color_viridis_c(name = "件数") +
facet_wrap(~`出没年`, ncol = 1) +
theme_bw(base_family = "Noto Sans JP")
}
全データを対象にグラフを描画します。
plot_daily(kuma_data)
初夏に件数が多くなるようですが、秋にピークが来る年もありました。2020年秋はとくに多かったことがわかります。
出没タイプ別
元データは出没タイプ別になっていましたので、それぞれについても同様のグラフを描いてみます。
森林からの出没
|>
kuma_data ::filter(`森林からの出没`) |>
dplyrplot_daily()
どの年にもみられますが、2019年、2021年、2022年では秋には少なく、2020年、2023年、2024年には初夏と秋に多かったようです。
河川からの出没
|>
kuma_data ::filter(`河川からの出没`) |>
dplyrplot_daily()
2020年と2024年に多かったようです。2020年は秋に多く、2024年には初夏と秋が多かったようです。
誘引物が原因の出没
|>
kuma_data ::filter(`誘引物が原因の出没`) |>
dplyrplot_daily()
2020年に多かったようです。一方、2021〜2022年はこのタイプはあまりなかったようです。ある場合は、時期は秋ごろでしょうか。
繁殖・分散行動(親離れした若クマ)による出没
|>
kuma_data ::filter(`繁殖・分散行動による出没`) |>
dplyrplot_daily()
夏以降に多いようですが、2024年はわりと初夏から冬まで続いていたようです。
大量出没年に特有の出没
|>
kuma_data ::filter(`大量出没年に特有の出没`) |>
dplyrplot_daily()
これは2020年だけです。こちらでも秋に多いことが見てとれます。
おわりに
今回は時系列でデータを見ていきましたので、次は地図で見ていきたいと思います。