1. 概览:目标与输出
目标:为虾皮台湾站店群建立一个基于零售与平台数据的选品预测模型与可复用复盘模板。输出:每周候选商品清单(含推荐分数)、复盘报告模板与改进动作表。小分段:明确KPI(GMV、转化率提升、上架成功率)、确定候选池(新品/补单/备货)。
2. 数据准备:来源与权限
列出数据源:Shopee商家中心API(销量、曝光、点击、转化)、广告后台(CPC、花费)、进销存系统、第三方面板(零售排名/类目趋势)、节假日与气候数据。小分段:申请API权限、定时导出CSV、建立数据表(按天/sku/店铺)。
3. 数据清洗:字段与样本窗口
关键字段:sku, date, views, clicks, orders, revenue, price, promo_flag, stock, ad_spend。操作步骤:统一时区、填补缺失(零填充曝光/点击)、去除异常(价格0、库存负值)、设置样本窗口(最近90天、30天同比)。小分段:保存原始快照,按周/日聚合。
4. 标签构造:如何定义“好商品”
定义方式:多标签并行(短期爆款、稳定高毛、低退货)。示例:未来14天销量增长率>50%且转化率>基线1.5倍。小分段:用滚动窗口生成标签,保证前向验证不会泄露未来信息。
5. 特征工程:可解释性与时序特征
核心特征:历史销量均值、销量斜率、曝光/点击比、价格弹性(价格变动后销量变化)、库存天数、广告投入效率、类目热度(Google Trend/面板)、节次影响。小分段:用滑动窗口计算7/14/30日特征,提取周、小时类时间特征,one-hot类目或用embedding。
6. 建模步骤:模型与验证
模型选型:先用逻辑回归/树模型(XGBoost/LightGBM)作为基线,再尝试时间序列或深度模型。验证方法:时间切分(训练用t0—tN,验证tN+1—tN+k)、指标:Precision@K、Recall、ROC-AUC、收益(预测商品产生的实际GMV)。小分段:交叉验证按滚动窗口,保存模型版本与参数。
7. 排名与阈值:把分数变成执行列表
操作:模型打分后按店铺/类目/库存过滤,设置阈值或取Top N。结合规则:最低利润率、库存阈值、上架窗口(节前优先)。小分段:构建每日自动化筛选脚本,生成导出表并发送到运营仪表板。
8. 上线、A/B测试与监控
上线流程:小流量A/B(部分店铺/商品上架),监控指标:曝光、点击、转化、退货率、GMV。时间窗:1-2周初验,30天稳定期。小分段:建立告警(转化骤降、退货率超阈值),定期拉取对比报表。
9. 复盘模板:结构与必填项
模板字段:编号、预测商品、预测分数、上架时间、实际14/30天销量、达成率、主要偏差原因、运营动作、下次建议。操作:每轮预测后强制填写复盘,汇总Top偏差原因并归类(数据问题/供应链/定价/竞争)。小分段:用Excel/Google Sheet模版+固定Drop-down选项便于统计。
10. 常见问题 Q1(问题)
p>Q: 我如何用SQL快速取出最近30天每个sku的转化率和价格弹性?
11. 常见问题 Q1(回答)
p>A: SQL思路:日表按sku聚合计算views,orders,revenue;转化率=SUM(orders)/SUM(views)。价格弹性:把每天价格与销量做线性回归斜率或计算价变期间销量变化率。示例步骤:1) SELECT sku, SUM(views) views, SUM(orders) orders, AVG(price) avg_price FROM daily WHERE date BETWEEN ... GROUP BY sku; 2) 用Python对价格与销量时间序列做回归得弹性。
12. 常见问题 Q2(问题)
p>Q: 模型上线后发现推荐商品实际表现较差,我该如何快速定位问题?
13. 常见问题 Q2(回答)
p>A: 快速定位流程:1) 校验数据管道(特征是否泄露、延迟、缺失);2) 对比训练/推理分布(特征漂移);3) 检查业务动作(价格/上下架/物流);4) 查看竞品变化。根据原因采取回滚、调整阈值或重新训练。
14. 常见问题 Q3(问题)
p>Q: 复盘周期和复盘深度如何设定最有效?
15. 常见问题 Q3(回答)
p>A: 建议节奏:快速复盘每周一次(Top偏差项),深度复盘每月一次(样本分析+模型再训练)。深度复盘包含数据质量检查、特征重要性对比、A/B结果回顾、并形成明确改进行动清单。
来源:零售数据支持的虾皮台湾站店群选品预测模型与复盘模板