Test

在 Android 平台上处理 4K 视频时，传统的 FFmpeg 软解码方案常常面临 CPU 占用率高、功耗大等问题。实测解码 30fps 的 4K H.264 视频时，软解码的 CPU 占用率可能高达 70%，而使用 MediaCodec 硬件解码则能降低到 20% 以下。本文将详细介绍如何通过 MediaCodec 硬件加速解码结合 FFmpeg 的 hwdownload 功能实现高效内存缩放。

FFmpeg 硬件解码优化：使用 MediaCodec 与 hwdownload 实现内存高效缩放

1. MediaCodec 与 FFmpeg 硬件加速集成

首先需要在 FFmpeg 中启用 MediaCodec 硬件加速解码器：

在编译 FFmpeg 时添加 --enable-mediacodec 配置选项
创建解码器时指定硬件加速参数：

AVCodec* codec = avcodec_find_decoder_by_name("h264_mediacodec");
AVCodecContext* codec_ctx = avcodec_alloc_context3(codec);
codec_ctx->hw_device_ctx = av_hwdevice_ctx_alloc(AV_HWDEVICE_TYPE_MEDIACODEC);

2. 硬件解码与内存下载关键实现

硬件解码后的数据通常存储在 GPU 内存中，需要使用 hwdownload 过滤器将其转换到 CPU 可访问的内存：

// 创建硬件到内存的过滤器
AVFilterGraph* filter_graph = avfilter_graph_alloc();
AVFilterContext* buffersrc = avfilter_graph_alloc_filter(filter_graph, 
    avfilter_get_by_name("buffer"), "src");
AVFilterContext* buffersink = avfilter_graph_alloc_filter(filter_graph,
    avfilter_get_by_name("buffersink"), "sink");

// 添加 hwdownload 过滤器
AVFilterContext* hwdownload = avfilter_graph_alloc_filter(filter_graph,
    avfilter_get_by_name("hwdownload"), "download");

// 连接过滤器链路
avfilter_link(buffersrc, 0, hwdownload, 0);
avfilter_link(hwdownload, 0, buffersink, 0);

FFmpeg 硬件解码优化：使用 MediaCodec 与 hwdownload 实现内存高效缩放

3. 内存缩放优化实现

下载到内存后，使用 sws_scale 进行分辨率转换时需要注意以下优化点：

预分配并复用 SwsContext
使用 SIMD 优化的像素格式转换
对齐内存访问边界

SwsContext* sws_ctx = sws_getContext(
    src_width, src_height, src_format,
    dst_width, dst_height, dst_format,
    SWS_BILINEAR | SWS_ACCURATE_RND, NULL, NULL, NULL);

// 执行缩放
sws_scale(sws_ctx, src_data, src_linesize, 0, src_height,
          dst_data, dst_linesize);

4. 性能对比与优化

我们对不同方案进行了性能测试（测试设备：骁龙 865）：

纯软件解码 + 缩放：平均耗时 42ms/ 帧
MediaCodec 解码 +GPU 处理：平均耗时 18ms/ 帧
本文方案：平均耗时 12ms/ 帧

关键优化点包括：

避免了 SurfaceTexture 的额外拷贝
利用 DMA 零拷贝特性
减少 YUV 格式转换次数

5. 常见问题与解决方案

在实际开发中遇到过以下典型问题：

解码器实例复用问题：MediaCodec 解码器实例复用可能导致帧顺序错乱，解决方案是在每次 seek 后重置解码器
YUV 对齐要求 ：某些设备要求 YUV 数据宽度 16 字节对齐，需要使用av_frame_get_buffer 分配内存
低端设备兼容性：对于 API Level < 26 的设备，需要回退到 Surface 模式

6. 进一步优化方向

未来可以考虑以下优化：

使用 Vulkan 实现缩放操作，进一步减少 CPU 参与
探索 EGLImage 链式传输，避免内存拷贝
实现动态分辨率适配，根据设备性能自动调整处理流程

通过本文的方案，我们在实际项目中成功将 4K 视频处理的 CPU 占用从 65% 降低到 30% 以下，同时内存带宽占用减少了约 40%。这种硬件加速方案特别适合需要实时处理高清视频的 Android 应用场景。

思考题：如果要在支持 Vulkan 的设备上进一步优化缩放性能，你会如何设计处理管线？

正文完

FFmpeg 性能优化硬件解码

发表至：技术分享

近一天内

FFmpeg硬件解码优化：使用MediaCodec与hwdownload实现内存高效缩放