\section{模型的建立与求解}
\subsection{问题一的求解}
\subsubsection{问题一的数据预处理}
由于附件2只有销售量的数据,并且附件1只有商品名称和对应类别的没有销售量的数据,所以通过单品编码关联单品表,从附件1获取「品类、单品名称」,添加到附件2。可得合并后的数据,如图图1,部分:\par
\begin{figure}[!h]
\centering
\includegraphics[width=.6\textwidth]{hebingtu}
\caption{部分合并后的数据展示}
\label{fig:hebingtu}
\end{figure}
第一问要求对蔬菜各品类及单品销售量的分布规律进行分析,所以为了能清晰看到每一类的每天的销售总量情况,利用python将每一类销量按照每天进行求和,然后得到每日分类销量汇总表,如表1(部分):\par
\begin{table}[h]
\centering
\caption{分类销量求和表}
\label{tab:sales_by_category} % 标签
\begin{tabular}{cc}
\toprule[1.5pt]
分类名称 & 销量(千克) \\
\midrule[1pt]
水生根茎类 & 40581.353 \\
花叶类 & 198520.978 \\
花菜类 & 41766.451 \\
茄类 & 22431.782 \\
辣椒类 & 91588.629 \\
食用菌 & 76086.725 \\
\bottomrule[1.5pt]
\end{tabular}
\end{table}
接下来进行异常值的检测与处理
首先我们对表\ref{tab:sales_by_category}绘制了箱线图,可以看到数据的分布情况。如图1:
\begin{figure}[!h]
\centering
\includegraphics[width=.9\textwidth]{xiang1}
\caption{蔬菜各品类中的多个数值型特征的可视化分析}
\label{fig:xiang1}
\end{figure}
可得知:水生根茎类箱形窄小,中位数低(接近 0),但散点分布广(延伸到 200+)。花叶类箱形宽大,中位数适中(约 100-200),散点延伸最远(超 1200)。花菜类箱形窄小,中位数低,散点少且集中在 200 以内。茄类箱形极窄,几乎压缩成线,散点极少。辣椒类箱形中等,中位数低,散点集中在 200-600 区间。食用菌箱形中等,中位数低,散点集中在 200-400 区间。\par
可以分析:水生根茎类大部分数据集中在低数值区间,花叶类高值异常点最多(尤其右侧远散点),花菜类数据最集中稳定(箱形紧凑,异常值少),茄类数据高度集中(四分位数重叠,离散度极低),辣椒类大部分数据集中在低数值,但存在中等程度的离散。食用菌数据离散度介于 “花菜类(稳定)” 和 “花叶类(离散)” 之间;


查看更多