一个语音的测试 -

一介布衣

浏览: 32081 次
性别:
来自: 重庆

最近访客更多访客>>

u011997289

leontius

Choaya

lihongyang66

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

一个语音的测试

博客分类：

语音技术

2017.12.13

一个关于语音的小作业。

由于工作的原因，开始接触大量关于语音方面的东西，一个主要的感觉就是见识增长了。下面总结一下一次完成的小作业。

wav和pcm文件是最常见的两种音频文件，让我们了解一下它们的区别。

WAV：是一种无损的音频文件格式，符合PIFF规范。所有的wav都有一个文件头，这个文件头音频流的编码参数。

PCM：脉冲调制录音。即将声音等模拟信号变成符号化的脉冲列，再予以记录。PCM信号是由[1]、[0]等符号构成的数字信号，而未经过任何编码和压缩处理。

WAV和PCM的关系

pcm是无损wav文件中音频数据的一种编码方式，但wav 还可以使用其它方式编码。

wav音频文件的格式：

wav文件由文件头和采样数据2部分组成。

文件头又分为RIFF、WAVE文件标识段和声音格式说明段组成，各段的起始地址分别由RIFF标识符、以及波形格式标识符（FMT）标定。

这幅图是WAV前 44个字节的意思。一般在进行语音方面的计算时会去掉这44个字节。还想知道更多的话点击链接：http://soundfile.sapp.org/doc/WaveFormat/

下面是本次的小练习：

1.给一个wav文件，能读取该音频的采样率，采样精度，声道数等信息。

2.在1的基础上对语音文件的大小进行计算，并对音频播放的时间也进行计算。

#include <stdio.h>
#include <stdint.h>
#include <stdlib.h>

struct WAV_Format { //定义一个结构体WAV文件
	uint32_t ChunkID;	/* "RIFF" 资源交换文件标志*/
	uint32_t ChunkSize;	/* 从下个地址开始到文件尾的总字节数*/
	uint32_t Format;	/* "WAVE文件标志" */

	/* sub-chunk "fmt" */
	uint32_t Subchunk1ID;	/* "fmt " */
	uint32_t Subchunk1Size;	/* 16 for PCM */
	uint16_t AudioFormat;	/* PCM = 1*/
	uint16_t NumChannels;	/* Mono = 1, Stereo = 2, by tc 通道数，单通道为1，双通道为2 */
	uint32_t SampleRate;	/* 8000, 44100, by tc 采样频率 */
	uint32_t ByteRate;	/* = SampleRate * NumChannels * BitsPerSample/8  波形数据传输速率*/
	uint16_t BlockAlign;	/* = NumChannels * BitsPerSample/8 */	
	uint16_t BitsPerSample;	/* 8bits, 16bits, by tc */

	/* sub-chunk "data" */
	uint32_t Subchunk2ID;	/* "data" */
	uint32_t Subchunk2Size;	/* data size */

	uint32_t FileSize;
	uint32_t Time;//播放时间
}; 

int main(void)
{
	FILE *fp = NULL;
	struct WAV_Format wav;

	fp = fopen("C:\\Users\\admin\\Desktop\\female.wav", "rb");
	if (!fp) {
		printf("can't open audio file\n");
		exit(1);
	}

	fread(&wav, 1, sizeof(struct WAV_Format), fp);

	printf("ChunkID \t%x\n", wav.ChunkID);
	printf("ChunkSize \t%d\n", wav.ChunkSize);//块大小
	printf("Format \t\t%x\n", wav.Format);
	printf("Subchunk1ID \t%x\n", wav.Subchunk1ID);
	printf("Subchunk1Size \t%d\n", wav.Subchunk1Size);
	printf("AudioFormat \t%d\n", wav.AudioFormat);
	printf("NumChannels \t%d\n", wav.NumChannels);
	printf("SampleRate \t%d\n", wav.SampleRate);
	printf("ByteRate \t%d\n", wav.ByteRate);
	printf("BlockAlign \t%d\n", wav.BlockAlign);
	printf("BitsPerSample \t%d\n", wav.BitsPerSample);
	printf("Subchunk2ID \t%x\n", wav.Subchunk2ID);
	printf("Subchunk2Size \t%d\n", wav.Subchunk2Size);

	wav.FileSize = (96000*wav.NumChannels*6)/8;
	printf("数据量是:\t%d B\n",wav.FileSize);
	wav.Time= wav.Subchunk2Size / wav.ByteRate;
	printf("音频播放的时间为:\t%d 秒\n",wav.Time);

	fclose(fp);

	return 0;
}

结果如下：