4.11 AVPacket 结构体
typedef struct AVPacket
{
//显示时间戳
int64_t pts;
//解码时间戳
int64_t dts;
//记录在文件或网络中的流中的字节的位置
int64_t pos;
//实际数据指针
uint8_t *data;
//实际的数据的大小
int size;
//该packet所属的流的索引,一般为0或者1
int stream_index;
int flags;
//析构函数
void(*destruct)(struct AVPacket*);
} AVPacket;
说明:
AVPacket 代表音视频数据帧,固有的属性是一些标记,时钟信息,和压缩数据首地址,大小等信息。
4.12 AVPacketList 结构体
typedef struct AVPacketList
{
AVPacket pkt;
struct AVPacketList *next;
} AVPacketList;
说明:AVPacketList 把音视频AVPacket 组成一个小链表。
4.13 AVFrame结构体
typedef struct AVFrame {
#define AV_NUM_DATA_POINTERS 8
uint8_t *data[AV_NUM_DATA_POINTERS];
int linesize[AV_NUM_DATA_POINTERS];
uint8_t **extended_data;
/**宽高 */
int width, height;
int nb_samples;
int format;
/**是否是关键帧*/
int key_frame;
/**帧类型(I,B,P)*/
enum AVPictureType pict_type;
uint8_t *base[AV_NUM_DATA_POINTERS];
AVRational sample_aspect_ratio;
int64_t pts;
int64_t pkt_pts;
int64_t pkt_dts;
int coded_picture_number;
int display_picture_number;
int quality;
int reference;
/**QP表*/
int8_t *qscale_table;
int qstride;
int qscale_type;
/**跳过宏块表 */
uint8_t *mbskip_table;
/**运动矢量表*/
int16_t (*motion_val[2])[2];
/**宏块类型表 */
uint32_t *mb_type;
/**DCT系数 */
short *dct_coeff;
/**参考帧列表 */
int8_t *ref_index[2];
void *opaque;
uint64_t error[AV_NUM_DATA_POINTERS];
int type;
int repeat_pict;
int interlaced_frame;
int top_field_first;
int palette_has_changed;
int buffer_hints;
AVPanScan *pan_scan;
int64_t reordered_opaque;
void *hwaccel_picture_private;
struct AVCodecContext *owner;
void *thread_opaque;
/**
* log2 of the size of the block which a single vector in motion_val represents:
* (4->16x16, 3->8x8, 2-> 4x4, 1-> 2x2)
* - encoding: unused
* - decoding: Set by libavcodec.
*/
uint8_t motion_subsample_log2;
/**(音频)采样率 */
int sample_rate;
uint64_t channel_layout;
int64_t best_effort_timestamp;
int64_t pkt_pos;
int64_t pkt_duration;
AVDictionary *metadata;
int decode_error_flags;
#define FF_DECODE_ERROR_INVALID_BITSTREAM 1
#define FF_DECODE_ERROR_MISSING_REFERENCE 2
int64_t channels;
} AVFrame;
AVFrame结构体一般用于存储原始数据(即非压缩数据,例如对视频来说是YUV,RGB,对音频来说是PCM),此外还包含了一些相关的信息。比如说,解码的时候存储了宏块类型表,QP表,运动矢量表等数据。编码的时候也存储了相关的数据。因此在使用FFMPEG进行码流分析的时候,AVFrame是一个很重要的结构体。
下面看几个主要变量的作用(在这里考虑解码的情况):
uint8_t *data[AV_NUM_DATA_POINTERS]:解码后原始数据(对视频来说是YUV,RGB,对音频来说是PCM)
int linesize[AV_NUM_DATA_POINTERS]:data的大小
int width, height:视频帧宽和高(1920x1080,1280x720...)
int nb_samples:音频的一个AVFrame中可能包含多个音频帧,在此标记包含了几个
int format:解码后原始数据类型(YUV420,YUV422,RGB24...)
int key_frame:是否是关键帧
enum AVPictureType pict_type:帧类型(I,B,P...)
AVRational sample_aspect_ratio:宽高比(16:9,4:3...)
int64_t pts:显示时间戳
int coded_picture_number:编码帧序号
int display_picture_number:显示帧序号
int8_t *qscale_table:QP表
uint8_t *mbskip_table:跳过宏块表
int16_t (*motion_val[2])[2]:运动矢量表
uint32_t *mb_type:宏块类型表
short *dct_coeff:DCT系数,这个没有提取过
int8_t *ref_index[2]:运动估计参考帧列表(貌似H.264这种比较新的标准才会涉及到多参考帧)
int interlaced_frame:是否是隔行扫描
uint8_t motion_subsample_log2:一个宏块中的运动矢量采样个数,取log的
其他的变量不再一一列举,源代码中都有详细的说明。在这里重点分析一下几个需要一定的理解的变量:
1.data[]
对于packed格式的数据(例如RGB24),会存到data[0]里面。
对于planar格式的数据(例如YUV420P),则会分开成data[0],data[1],data[2]...(YUV420P中data[0]存Y,data[1]存U,data[2]存V)
具体参见:FFMPEG 实现 YUV,RGB各种图像原始数据之间的转换(swscale)
2.pict_type
包含以下类型:
py
enum AVPictureType {
AV_PICTURE_TYPE_NONE = 0, ///< Undefined
AV_PICTURE_TYPE_I, ///< Intra
AV_PICTURE_TYPE_P, ///< Predicted
AV_PICTURE_TYPE_B, ///< Bi-dir predicted
AV_PICTURE_TYPE_S, ///< S(GMC)-VOP MPEG4
AV_PICTURE_TYPE_SI, ///< Switching Intra
AV_PICTURE_TYPE_SP, ///< Switching Predicted
AV_PICTURE_TYPE_BI, ///< BI type
};
3.sample_aspect_ratio
宽高比是一个分数,FFMPEG中用AVRational表达分数:
/**
* rational number numerator/denominator
*/
typedef struct AVRational{
int num; ///< numerator
int den; ///< denominator
} AVRational;
4.qscale_table
QP表指向一块内存,里面存储的是每个宏块的QP值。宏块的标号是从左往右,一行一行的来的。每个宏块对应1个QP。
qscale_table[0]就是第1行第1列宏块的QP值;qscale_table[1]就是第1行第2列宏块的QP值;qscale_table[2]就是第1行第3列宏块的QP值。以此类推...
宏块的个数用下式计算:
注:宏块大小是16x16的。
每行宏块数:
int mb_stride = pCodecCtx->width/16+1
宏块的总数:
int mb_sum = ((pCodecCtx->height+15)>>4)*(pCodecCtx->width/16+1)
5.motion_subsample_log2
1个运动矢量所能代表的画面大小(用宽或者高表示,单位是像素),注意,这里取了log2。
代码注释中给出以下数据:
4->16x16, 3->8x8, 2-> 4x4, 1-> 2x2
即1个运动矢量代表16x16的画面的时候,该值取4;1个运动矢量代表8x8的画面的时候,该值取3...以此类推
6.motion_val
运动矢量表存储了一帧视频中的所有运动矢量。
该值的存储方式比较特别:
int16_t (*motion_val[2])[2];
为了弄清楚该值究竟是怎么存的,花了我好一阵子功夫...
注释中给了一段代码:
int mv_sample_log2= 4 - motion_subsample_log2;
int mb_width= (width+15)>>4;
int mv_stride= (mb_width << mv_sample_log2) + 1;
motion_val[direction][x + y*mv_stride][0->mv_x, 1->mv_y];
大概知道了该数据的结构:
1.首先分为两个列表L0和L1
2.每个列表(L0或L1)存储了一系列的MV(每个MV对应一个画面,大小由motion_subsample_log2决定)
3.每个MV分为横坐标和纵坐标(x,y)
注意,在FFMPEG中MV和MB在存储的结构上是没有什么关联的,第1个MV是屏幕上左上角画面的MV(画面的大小取决于motion_subsample_log2),第2个MV是屏幕上第1行第2列的画面的MV,以此类推。因此在一个宏块(16x16)的运动矢量很有可能如下图所示(line代表一行运动矢量的个数):
//例如8x8划分的运动矢量与宏块的关系:
//-------------------------
//| | |
//|mv[x] |mv[x+1] |
//-------------------------
//| | |
//|mv[x+line]|mv[x+line+1]|
//-------------------------
7.mb_type
宏块类型表存储了一帧视频中的所有宏块的类型。其存储方式和QP表差不多。只不过其是uint32类型的,而QP表是uint8类型的。每个宏块对应一个宏块类型变量。
宏块类型如下定义所示:
//The following defines may change, don't expect compatibility if you use them.
#define MB_TYPE_INTRA4x4 0x0001
#define MB_TYPE_INTRA16x16 0x0002 //FIXME H.264-specific
#define MB_TYPE_INTRA_PCM 0x0004 //FIXME H.264-specific
#define MB_TYPE_16x16 0x0008
#define MB_TYPE_16x8 0x0010
#define MB_TYPE_8x16 0x0020
#define MB_TYPE_8x8 0x0040
#define MB_TYPE_INTERLACED 0x0080
#define MB_TYPE_DIRECT2 0x0100 //FIXME
#define MB_TYPE_ACPRED 0x0200
#define MB_TYPE_GMC 0x0400
#define MB_TYPE_SKIP 0x0800
#define MB_TYPE_P0L0 0x1000
#define MB_TYPE_P1L0 0x2000
#define MB_TYPE_P0L1 0x4000
#define MB_TYPE_P1L1 0x8000
#define MB_TYPE_L0 (MB_TYPE_P0L0 | MB_TYPE_P1L0)
#define MB_TYPE_L1 (MB_TYPE_P0L1 | MB_TYPE_P1L1)
#define MB_TYPE_L0L1 (MB_TYPE_L0 | MB_TYPE_L1)
#define MB_TYPE_QUANT 0x00010000
#define MB_TYPE_CBP 0x00020000
//Note bits 24-31 are reserved for codec specific use (h264 ref0, mpeg1 0mv, ...)
一个宏块如果包含上述定义中的一种或两种类型,则其对应的宏块变量的对应位会被置1。
注:一个宏块可以包含好几种类型,但是有些类型是不能重复包含的,比如说一个宏块不可能既是16x16又是8x8。
8.ref_index
运动估计参考帧列表存储了一帧视频中所有宏块的参考帧索引。这个列表其实在比较早的压缩编码标准中是没有什么用的。只有像H.264这样的编码标准才有多参考帧的概念。但是这个字段目前我还没有研究透。只是知道每个宏块包含有4个该值,该值反映的是参考帧的索引。以后有机会再进行细研究吧。
by: czc1009 《FFmpeg基础库编程开发》
相关推荐
在FFmpeg中,关键的数据结构包括: - **AVFormatContext**: 这是FFmpeg中的核心上下文结构,用于存储有关媒体文件的整体信息,如文件格式、流信息、时间基等。 - **AVStream**: 表示媒体文件中的一个流,可以是...
数据结构章节深入介绍了AVCodec结构体、AVFormatContext结构体等,它们是FFmpeg中处理音视频数据的基础数据结构。 重要模块章节详细解释了libavutil公共模块、libavcodec编解码模块、libavformat容器模块等关键模块...
其它部分是 FFmpeg 中负责提供一些特殊功能和工具的部分,该部分包括了多个子模块,如 libswscale 的 sws_getContext()、libavdevice 的 avdevice_register_all() 等,这些函数负责提供一些特殊的多媒体处理功能和...
libavformat用于处理多媒体容器格式,libavcodec则负责编码和解码,libavutil提供了各种通用工具和数据结构,而libavfilter则用于图像和音频处理的滤镜。 在网络摄像头数据获取过程中,FFmpeg通过libavformat的`av_...
FFmpeg主要数据结构和函数归类 FFmpeg是一款功能强大且广泛使用的多媒体处理库,它提供了丰富的数据结构和函数来处理音视频编解码、文件操作等多种任务。下面我们将对FFmpeg中的主要数据结构和函数进行归类和分析。...
在保持图像质量的同时进行编码,是一项技术挑战,但源码实现表明这是可行的,且“二次编码后图像很清晰”,这说明了FFmpeg在视频编码上的高效性能。 "simplest_ffmpeg_video_encoder_1.1.7z"可能包含了一个简化版的...
在FFmpeg的源代码中,解码部分是核心功能之一,它负责将原始的二进制数据转化为人类可理解的音频或视频信号。这个"FFmpeg源代码结构图 - 解码.rar"文件很可能包含了一个关于FFmpeg解码流程的详细图示和相关文档,如...
理解和使用这些步骤需要对音视频编码原理有一定了解,同时也需要熟悉 FFmpeg 的数据结构和接口。通过 "FFmpeg-master" 中的样例代码,你可以更直观地了解这些概念如何在实践中应用,从而更好地掌握 FFmpeg 的使用。
7. **libavutil**:通用的工具库,包含数学函数、数据结构等。 8. **libswresample**:音频重采样库。 9. **libswscale**:视频缩放和色彩转换库。 FFmpeg 支持的格式广泛,包括但不限于MP4、AVI、MKV、FLV、WMV、...
5. Libavutil:通用工具库,包含数学函数、随机数生成、数据结构等。 二、FFmpeg安装 1. 下载:访问FFmpeg官方网站(https://ffmpeg.org/download.html)下载适合操作系统的预编译版本或源代码。 2. 解压:将下载...
- 基本命令结构:`ffmpeg [全局选项] [-i 输入文件] [输出选项] 输出文件` - 输入选项:`-i`用于指定输入文件,可以有多个。 - 输出选项:如`-c:v`选择视频编码器,`-c:a`选择音频编码器,`-b:v`设置视频码率,`-...
6. **解码视频帧**:使用`avcodec_decode_video2`函数对从文件读取的原始数据进行解码,得到`AVFrame`对象,这是FFmpeg中表示图像的基本结构。 7. **处理解码后的帧**:根据需求,可以对解码后的帧进行各种处理,如...
5. **libavutil**:提供通用的实用函数,如数据结构、随机数生成、数学运算等,是其他模块的基础。 6. **libavdevice**:用于与硬件设备(如摄像头、麦克风)交互,采集或输出音视频数据。 在手册中,你将深入了解...
6. **内存管理**:FFmpeg库中的数据结构通常需要手动分配和释放。使用`av_malloc()`和`av_free()`等函数进行内存管理,遵循FFmpeg的内存管理规则。 7. **错误处理**:在使用FFmpeg API时,务必检查返回值和错误码,...
1. **初始化FFmpeg上下文**:首先,需要创建一个`AVFormatContext`实例,这是FFmpeg处理媒体流的基本结构。通过`avformat_open_input`函数打开RTSP流,并使用`avformat_find_stream_info`获取流信息。 2. **查找...
在Android平台上进行FFmpeg开发时,`include`目录包含了FFmpeg库中所有必要的头文件,这些头文件定义了FFmpeg的API和数据结构,是构建FFmpeg功能的基础。FFmpeg是一个开源的跨平台多媒体处理框架,它允许开发者处理...
4. libavutil:包含通用工具函数,如随机数生成、数据结构管理等,为其他库提供基础支持。 5. libswscale:用于色彩空间转换和像素格式的调整。 6. libswresample:用于音频重采样和声道布局转换。 二、FFmpeg的...