Databricks SWE OA 面经｜SQL 执行图、日志窗口与 AI Coding 题型解析

这套 Databricks SWE OA 的节奏更像工程场景题，而不是纯刷题列表。开场是数据处理相关的数组和窗口统计，后面接一题图建模，最后一题是 AI Coding/Debug，要求读懂一段有缺陷的代码并修掉边界问题。准备时可以先看 Databricks Software Engineer interview guide 里的面试流程，再把重点放在数据结构、SQL 执行语义和代码可读性上。

第一题：日志窗口聚合

题目描述

给一组服务日志，每条日志包含 timestamp、service_id 和 latency。要求在每个固定窗口内统计每个服务的请求数、平均延迟和 p95 延迟，并返回延迟超过阈值的服务列表。输入不是完全有序的，窗口边界采用左闭右开。输出要按窗口开始时间、service_id 排序。

解题思路

先按 timestamp 计算窗口编号，再用 (window_start, service_id) 作为 key 做聚合。请求数和总延迟可以一边扫描一边累加，p95 需要保留该 key 下的延迟列表；如果数据量很大，可以把延迟离散化到桶里，最后从高到低恢复百分位。排序放在最后做，不要在扫描阶段频繁维护全局有序结构。边界测试重点是窗口右端点、空服务、同一秒多条日志以及延迟阈值等于 p95 的情况。复杂度：直接排序延迟列表时，时间 O(n log n)，空间 O(n)。

第二题：SQL 执行依赖图

题目描述

给定一组 SQL job，每个 job 有 job_id、读取的表、写入的表和预计耗时。一个 job 写出的表如果被另一个 job 读取，后者必须等待前者完成。要求返回所有 job 的最早完成时间，并在存在循环依赖时返回冲突链路。

解题思路

先建立表到生产 job 的映射，再把 job 之间的依赖转成有向图。入度为 0 的 job 可以入队，按拓扑序更新后继 job 的最早开始时间。每处理完一个 job，就用 finish_time = earliest_start + duration 更新下游。如果最后处理数量少于 job 总数，说明存在环；此时对剩余节点跑一次 DFS，用颜色标记恢复一条环。这个题的核心不是图模板，而是把表依赖准确转成 job 依赖，尤其是多个 job 写同一张临时表时要按题目规则决定是否报错。复杂度：建图 O(J + E)，拓扑排序 O(J + E)。

第三题：AI Coding 修复分区读取器

题目描述

题目给出一段 Python 代码，用来从多个分区文件中按顺序读取记录。代码在空分区、重复 offset、最后一个分区读完后继续调用 next() 时会返回错误结果。要求修复代码，并补充几个测试用例。

解题思路

先把读取器状态拆成三个变量：当前分区下标、当前分区内 offset、已经返回过的全局 offset。next() 每次先跳过空分区，再检查是否越界，最后返回记录并推进 offset。重复 offset 不能靠全局 set 粗暴去重，因为不同分区里的 offset 可以同名；更稳的方式是把唯一键定义为 (partition_id, offset)。测试要覆盖连续空分区、只有一个元素、最后一次读取后再次调用、分区内 offset 非递增这几类情况。修复时少改接口，多加断言，比整段推倒重做更容易拿分。

做题过程和备考建议

Databricks 的 OA 准备不要只刷数组题。窗口聚合和依赖图都带有数据平台味道，平时练题时可以把输入清洗、排序规则、异常状态写完整。AI Coding 题也不是让你盲目重构，重点是定位 bug、保留原接口、把测试补到能解释修复原因。练习材料可以搭配 Try Exponent 的 Databricks 面试指南，再用 LeetCode 的图和堆题训练实现速度。

FAQ

Databricks OA 需要重点准备 SQL 吗？

需要会 SQL 的执行语义和数据处理思路，但题目不一定是纯 SQL。更值得准备的是窗口、聚合、依赖关系、排序稳定性和异常输入。

AI Coding 题怎么写得更稳？

先补测试，再改代码。测试能说明你发现了哪些边界，面试官也更容易判断你的修复不是碰巧过样例。

图题卡住时先做什么？

先把业务对象映射成节点和边，再写拓扑排序。很多错误来自建图阶段，比如把表节点和 job 节点混在一起。

关于 CSOFFERPREP

进 VO 之前，可以找 CSOFFERPREP 做实时面试助攻和备考辅导。CSOFFERPREP 深耕北美 IT 行业多年，已帮助万余名学生进入全球 500 强企业。导师来自一线大厂资深工程师和面试官，对 Databricks 这类注重工程文化的公司的面试套路很熟悉。无论是 OA辅助、OA 辅导、VO 辅助、VO 模拟面试、VO 代面试还是系统设计辅助，都可以获得更有针对性的准备方案：CSOFFERPREP · 服务详情

参考来源

Jassi Chen

See Full Bio

第一题：日志窗口聚合

题目描述

解题思路

第二题：SQL 执行依赖图

题目描述

解题思路

第三题：AI Coding 修复分区读取器

题目描述

解题思路

做题过程和备考建议

FAQ

Databricks OA 需要重点准备 SQL 吗？

AI Coding 题怎么写得更稳？

图题卡住时先做什么？

关于 CSOFFERPREP

参考来源

Related Post

联系我们

Quick Links

Get In Touch