`
isiqi
  • 浏览: 16701829 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

鼠标屏幕取词技术的原理和实现

阅读更多

鼠标屏幕取词技术的原理和实现
白瑜

“鼠标屏幕取词”技术是在电子字典中得到广泛地应用的,如四通利方和金山词霸等软件,这个技术看似简单,其实在WINDOWS系统中实现却是非常复杂的,总的来说有两种实现方式:
第一种:采用截获对部分GDI的API调用来实现,如TextOut,TextOutA等。
第二种:对每个设备上下文(DC)做一分Copy,并跟踪所有修改上下文(DC)的操作。
第二种方法更强大,但兼容性不好,而第一种方法使用的截获WindowsAPI的调用,这项技术的强大可能远远超出了您的想象,毫不夸张的说,利用WindowsAPI拦截技术,你可以改造整个操作系统,事实上很多外挂式Windows中文平台就是这么实现的!而这项技术也正是这篇文章的主题。
截WindowsAPI的调用,具体的说来也可以分为两种方法:
第一种方法通过直接改写WinAPI 在内存中的映像,嵌入汇编代码,使之被调用时跳转到指定的地址运行来截获;第二种方法则改写IAT(Import Address Table 输入地址表),重定向WinAPI函数的调用来实现对WinAPI的截获。
第一种方法的实现较为繁琐,而且在Win95、98下面更有难度,这是因为虽然微软说WIN16的API只是为了兼容性才保留下来,程序员应该尽可能地调用32位的API,实际上根本就不是这样!WIN 9X内部的大部分32位API经过变换调用了同名的16位API,也就是说我们需要在拦截的函数中嵌入16位汇编代码!
我们将要介绍的是第二种拦截方法,这种方法在Win95、98和NT下面运行都比较稳定,兼容性较好。由于需要用到关于Windows虚拟内存的管理、打破进程边界墙、向应用程序的进程空间中注入代码、PE(Portable Executable)文件格式和IAT(输入地址表)等较底层的知识,所以我们先对涉及到的这些知识大概地做一个介绍,最后会给出拦截部分的关键代码。
先说Windows虚拟内存的管理。Windows9X给每一个进程分配了4GB的地址空间,对于NT来说,这个数字是2GB,系统保留了2GB到 4GB之间的地址空间禁止进程访问,而在Win9X中,2GB到4GB这部分虚拟地址空间实际上是由所有的WIN32进程所共享的,这部分地址空间加载了共享Win32 DLL、内存映射文件和VXD、内存管理器和文件系统码,Win9X中这部分对于每一个进程都是可见的,这也是Win9X操作系统不够健壮的原因。Win9X中为16位操作系统保留了0到4MB的地址空间,而在4MB到2GB之间也就是Win32进程私有的地址空间,由于 每个进程的地址空间都是相对独立的,也就是说,如果程序想截获其它进程中的API调用,就必须打破进程边界墙,向其它的进程中注入截获API调用的代码,这项工作我们交给钩子函数(SetWindowsHookEx)来完成,关于如何创建一个包含系统钩子的动态链接库,《电脑高手杂志》在第?期已经有过专题介绍了,这里就不赘述了。所有系统钩子的函数必须要在动态库里,这样的话,当进程隐式或显式调用一个动态库里的函数时,系统会把这个动态库映射到这个进程的虚拟地址空间里,这使得DLL成为进程的一部分,以这个进程的身份执行,使用这个进程的堆栈,也就是说动态链接库中的代码被钩子函数注入了其它GUI进程的地址空间(非GUI进程,钩子函数就无能为力了),
当包含钩子的DLL注入其它进程后,就可以取得映射到这个进程虚拟内存里的各个模块(EXE和DLL)的基地址,如:
HMODULE hmodule=GetModuleHandle(“Mypro.exe”);
在MFC程序中,我们可以用AfxGetInstanceHandle()函数来得到模块的基地址。EXE和DLL被映射到虚拟内存空间的什么地方是由它们的基地址决定的。它们的基地址是在链接时由链接器决定的。当你新建一个Win32工程时,VC++链接器使用缺省的基地址0x00400000。可以通过链接器的BASE选项改变模块的基地址。EXE通常被映射到虚拟内存的0x00400000处,DLL也随之有不同的基地址,通常被映射到不同进程
的相同的虚拟地址空间处。
系统将EXE和DLL原封不动映射到虚拟内存空间中,它们在内存中的结构与磁盘上的静态文件结构是一样的。即PE (Portable Executable) 文件格式。我们得到了进程模块的基地址以后,就可以根据PE文件的格式穷举这个模块的IMAGE_IMPORT_DESCRIPTOR数组,看看进程空间中是否引入了我们需要截获的函数所在的动态链接库,比如需要截获“TextOutA”,就必须检查“Gdi32.dll”是否被引入了。说到这里,我们有必要介绍一下PE文件的格式,如右图,这是PE文件格式的大致框图,最前面是文件头,我们不必理会,从PE File Optional Header后面开始,就是文件中各个段的说明,说明后面才是真正的段数据,而实际上我们关心的只有一个段,那就是“.idata”段,这个段中包含了所有的引入函数信息,还有IAT(Import Address Table)的RVA(Relative Virtual Address)地址。
说到这里,截获WindowsAPI的整个原理就要真相大白了。实际上所有进程对给定的API函数的调用总是通过PE文件的一个地方来转移的,这就是一个该模块(可以是EXE或DLL)的“.idata”段中的IAT输入地址表(Import Address Table)。在那里有所有本模块调用的其它DLL的函数名及地址。对其它DLL的函数调用实际上只是跳转到输入地址表,由输入地址表再跳转到DLL真正的函数入口。

具体来说,我们将通过IMAGE_IMPORT_DESCRIPTOR数组来访问“.idata”段中引入的DLL的信息,然后通过IMAGE_THUNK_DATA数组来针对一个被引入的DLL访问该DLL中被引入的每个函数的信息,找到我们需要截获的函数的跳转地址,然后改成我们自己的函数的地址……具体的做法在后面的关键代码中会有详细的讲解。
讲了这么多原理,现在让我们回到“鼠标屏幕取词”的专题上来。除了API函数的截获,要实现“鼠标屏幕取词”,还需要做一些其它的工作,简单的说来,可以把一个完整的取词过程归纳成以下几个步骤:
1. 安装鼠标钩子,通过钩子函数获得鼠标消息。
使用到的API函数:SetWindowsHookEx
2. 得到鼠标的当前位置,向鼠标下的窗口发重画消息,让它调用系统函数重画窗口。
使用到的API函数:WindowFromPoint,ScreenToClient,InvalidateRect
3. 截获对系统函数的调用,取得参数,也就是我们要取的词。
对于大多数的Windows应用程序来说,如果要取词,我们需要截获的是“Gdi32.dll”中的“TextOutA”函数。
我们先仿照TextOutA函数写一个自己的MyTextOutA函数,如:
BOOL WINAPI MyTextOutA(HDC hdc, int nXStart, int nYStart, LPCSTR lpszString,int cbString)
{
// 这里进行输出lpszString的处理
// 然后调用正版的TextOutA函数
}
把这个函数放在安装了钩子的动态连接库中,然后调用我们最后给出的HookImportFunction函数来截获进程
对TextOutA函数的调用,跳转到我们的MyTextOutA函数,完成对输出字符串的捕捉。HookImportFunction的
用法:
HOOKFUNCDESC hd;
PROC pOrigFuns;
hd.szFunc="TextOutA";
hd.pProc=(PROC)MyTextOutA;
HookImportFunction (AfxGetInstanceHandle(),"gdi32.dll",&hd,pOrigFuns);
下面给出了HookImportFunction的源代码,相信详尽的注释一定不会让您觉得理解截获到底是怎么实现的
很难,Ok,Let’s Go:

///////////////////////////////////////////// Begin ///////////////////////////////////////////////////////////////
#include <crtdbg.h>

// 这里定义了一个产生指针的宏
#define MakePtr(cast, ptr, AddValue) (cast)((DWORD)(ptr)+(DWORD)(AddValue))

// 定义了HOOKFUNCDESC结构,我们用这个结构作为参数传给HookImportFunction函数
typedef struct tag_HOOKFUNCDESC
{
LPCSTR szFunc; // The name of the function to hook.
PROC pProc; // The procedure to blast in.
} HOOKFUNCDESC , * LPHOOKFUNCDESC;

// 这个函数监测当前系统是否是WindowNT
BOOL IsNT();

// 这个函数得到hModule -- 即我们需要截获的函数所在的DLL模块的引入描述符(import descriptor)
PIMAGE_IMPORT_DESCRIPTOR GetNamedImportDescriptor(HMODULE hModule, LPCSTR szImportModule);

// 我们的主函数
BOOL HookImportFunction(HMODULE hModule, LPCSTR szImportModule,
LPHOOKFUNCDESC paHookFunc, PROC* paOrigFuncs)
{
/////////////////////// 下面的代码检测参数的有效性 ////////////////////////////
_ASSERT(szImportModule);
_ASSERT(!IsBadReadPtr(paHookFunc, sizeof(HOOKFUNCDESC)));
#ifdef _DEBUG
if (paOrigFuncs) _ASSERT(!IsBadWritePtr(paOrigFuncs, sizeof(PROC)));
_ASSERT(paHookFunc.szFunc);
_ASSERT(*paHookFunc.szFunc != '\0');
_ASSERT(!IsBadCodePtr(paHookFunc.pProc));
#endif
if ((szImportModule == NULL) || (IsBadReadPtr(paHookFunc, sizeof(HOOKFUNCDESC))))
{
_ASSERT(FALSE);
SetLastErrorEx(ERROR_INVALID_PARAMETER, SLE_ERROR);
return FALSE;
}
//////////////////////////////////////////////////////////////////////////////

// 监测当前模块是否是在2GB虚拟内存空间之上
// 这部分的地址内存是属于Win32进程共享的
if (!IsNT() && ((DWORD)hModule >= 0x80000000))
{
_ASSERT(FALSE);
SetLastErrorEx(ERROR_INVALID_HANDLE, SLE_ERROR);
return FALSE;
}
// 清零
if (paOrigFuncs) memset(paOrigFuncs, NULL, sizeof(PROC));

// 调用GetNamedImportDescriptor()函数,来得到hModule -- 即我们需要
// 截获的函数所在的DLL模块的引入描述符(import descriptor)
PIMAGE_IMPORT_DESCRIPTOR pImportDesc = GetNamedImportDescriptor(hModule, szImportModule);
if (pImportDesc == NULL)
return FALSE; // 若为空,则模块未被当前进程所引入

// 从DLL模块中得到原始的THUNK信息,因为pImportDesc->FirstThunk数组中的原始信息已经
// 在应用程序引入该DLL时覆盖上了所有的引入信息,所以我们需要通过取得pImportDesc->OriginalFirstThunk
// 指针来访问引入函数名等信息
PIMAGE_THUNK_DATA pOrigThunk = MakePtr(PIMAGE_THUNK_DATA, hModule,
pImportDesc->OriginalFirstThunk);

// 从pImportDesc->FirstThunk得到IMAGE_THUNK_DATA数组的指针,由于这里在DLL被引入时已经填充了
// 所有的引入信息,所以真正的截获实际上正是在这里进行的
PIMAGE_THUNK_DATA pRealThunk = MakePtr(PIMAGE_THUNK_DATA, hModule, pImportDesc->FirstThunk);

// 穷举IMAGE_THUNK_DATA数组,寻找我们需要截获的函数,这是最关键的部分!
while (pOrigThunk->u1.Function)
{
// 只寻找那些按函数名而不是序号引入的函数
if (IMAGE_ORDINAL_FLAG != (pOrigThunk->u1.Ordinal & IMAGE_ORDINAL_FLAG))
{
// 得到引入函数的函数名
PIMAGE_IMPORT_BY_NAME pByName = MakePtr(PIMAGE_IMPORT_BY_NAME, hModule,
pOrigThunk->u1.AddressOfData);

// 如果函数名以NULL开始,跳过,继续下一个函数
if ('\0' == pByName->Name[0])
continue;

// bDoHook用来检查是否截获成功
BOOL bDoHook = FALSE;

// 检查是否当前函数是我们需要截获的函数
if ((paHookFunc.szFunc[0] == pByName->Name[0]) &&
(strcmpi(paHookFunc.szFunc, (char*)pByName->Name) == 0))
{
// 找到了!
if (paHookFunc.pProc)
bDoHook = TRUE;
}
if (bDoHook)
{
// 我们已经找到了所要截获的函数,那么就开始动手吧
// 首先要做的是改变这一块虚拟内存的内存保护状态,让我们可以自由存取
MEMORY_BASIC_INFORMATION mbi_thunk;
VirtualQuery(pRealThunk, &mbi_thunk, sizeof(MEMORY_BASIC_INFORMATION));
_ASSERT(VirtualProtect(mbi_thunk.BaseAddress, mbi_thunk.RegionSize,
PAGE_READWRITE, &mbi_thunk.Protect));

// 保存我们所要截获的函数的正确跳转地址
if (paOrigFuncs)
paOrigFuncs = (PROC)pRealThunk->u1.Function;

// 将IMAGE_THUNK_DATA数组中的函数跳转地址改写为我们自己的函数地址!
// 以后所有进程对这个系统函数的所有调用都将成为对我们自己编写的函数的调用
pRealThunk->u1.Function = (PDWORD)paHookFunc.pProc;

// 操作完毕!将这一块虚拟内存改回原来的保护状态
DWORD dwOldProtect;
_ASSERT(VirtualProtect(mbi_thunk.BaseAddress, mbi_thunk.RegionSize,
mbi_thunk.Protect, &dwOldProtect));
SetLastError(ERROR_SUCCESS);
return TRUE;
}
}
// 访问IMAGE_THUNK_DATA数组中的下一个元素
pOrigThunk++;
pRealThunk++;
}
return TRUE;
}

// GetNamedImportDescriptor函数的实现
PIMAGE_IMPORT_DESCRIPTOR GetNamedImportDescriptor(HMODULE hModule, LPCSTR szImportModule)
{
// 检测参数
_ASSERT(szImportModule);
_ASSERT(hModule);
if ((szImportModule == NULL) || (hModule == NULL))
{
_ASSERT(FALSE);
SetLastErrorEx(ERROR_INVALID_PARAMETER, SLE_ERROR);
return NULL;
}

// 得到Dos文件头
PIMAGE_DOS_HEADER pDOSHeader = (PIMAGE_DOS_HEADER) hModule;

// 检测是否MZ文件头
if (IsBadReadPtr(pDOSHeader, sizeof(IMAGE_DOS_HEADER)) ||
(pDOSHeader->e_magic != IMAGE_DOS_SIGNATURE))
{
_ASSERT(FALSE);
SetLastErrorEx(ERROR_INVALID_PARAMETER, SLE_ERROR);
return NULL;
}

// 取得PE文件头
PIMAGE_NT_HEADERS pNTHeader = MakePtr(PIMAGE_NT_HEADERS, pDOSHeader, pDOSHeader->e_lfanew);

// 检测是否PE映像文件
if (IsBadReadPtr(pNTHeader, sizeof(IMAGE_NT_HEADERS)) ||
(pNTHeader->Signature != IMAGE_NT_SIGNATURE))
{
_ASSERT(FALSE);
SetLastErrorEx(ERROR_INVALID_PARAMETER, SLE_ERROR);
return NULL;
}

// 检查PE文件的引入段(即 .idata section)
if (pNTHeader->OptionalHeader.DataDirectory[IMAGE_DIRECTORY_ENTRY_IMPORT].VirtualAddress == 0)
return NULL;

// 得到引入段(即 .idata section)的指针
PIMAGE_IMPORT_DESCRIPTOR pImportDesc = MakePtr(PIMAGE_IMPORT_DESCRIPTOR, pDOSHeader,
pNTHeader->OptionalHeader.DataDirectory[IMAGE_DIRECTORY_ENTRY_IMPORT].VirtualAddress);

// 穷举PIMAGE_IMPORT_DESCRIPTOR数组寻找我们需要截获的函数所在的模块
while (pImportDesc->Name)
{
PSTR szCurrMod = MakePtr(PSTR, pDOSHeader, pImportDesc->Name);
if (stricmp(szCurrMod, szImportModule) == 0)
break; // 找到!中断循环
// 下一个元素
pImportDesc++;
}

// 如果没有找到,说明我们寻找的模块没有被当前的进程所引入!
if (pImportDesc->Name == NULL)
return NULL;

// 返回函数所找到的模块描述符(import descriptor)
return pImportDesc;
}

// IsNT()函数的实现
BOOL IsNT()
{
OSVERSIONINFO stOSVI;
memset(&stOSVI, NULL, sizeof(OSVERSIONINFO));
stOSVI.dwOSVersionInfoSize = sizeof(OSVERSIONINFO);
BOOL bRet = GetVersionEx(&stOSVI);
_ASSERT(TRUE == bRet);
if (FALSE == bRet) return FALSE;
return (VER_PLATFORM_WIN32_NT == stOSVI.dwPlatformId);
}
/////////////////////////////////////////////// End //////////////////////////////////////////////////////////////////////

不知道在这篇文章问世之前,有多少朋友尝试过去实现“鼠标屏幕取词”这项充满了挑战的技术,也只有尝试过的朋友才能体会到其间的不易,尤其在探索API函数的截获时,手头的几篇资料没有一篇是涉及到关键代码的,重要的地方都是一笔代过,MSDN更是显得苍白而无力,也不知道除了IMAGE_IMPORT_DESCRIPTOR和IMAGE_THUNK_DATA,微软还隐藏了多少秘密,好在硬着头皮还是把它给攻克了,希望这篇文章对大家能有所帮助。

分享到:
评论

相关推荐

    鼠标屏幕取词,屏幕抓词的技术实现.zip

    屏幕取词技术是一种在计算机屏幕上选取任意单词或短语,并即时翻译或显示其含义的功能,常见于各种词典软件和翻译工具中。金山词霸是一款知名的英语学习软件,它的鼠标屏幕取词功能允许用户在浏览网页、阅读文档时,...

    屏幕取词原理与实现

    屏幕取词技术,也称为屏幕抓词或屏幕词典技术,是指在计算机屏幕上用鼠标指针指向某段文字时,能够即时显示该文字的翻译或解释的一种功能。这种技术广泛应用于翻译软件和多语言学习软件中,极大地方便了用户在阅读...

    有关屏幕取词的原理与实现

    总结,屏幕取词技术通过OCR和图像处理实现了从屏幕图像到可读文本的转化,为用户提供便捷的翻译和查询功能。在CAJViewer这样的专业阅读器中,它帮助用户高效地理解和消化学术资料。随着技术的发展,我们可以期待屏幕...

    屏幕取词的原理和实现.txt

    屏幕取词技术主要通过以下步骤实现: 1. **获取鼠标位置信息**:使用`SetWindowsHookEx`API设置钩子来获取鼠标点击的位置信息。 2. **获取当前窗口句柄和坐标信息**:利用`WindowFromPoint`、`ScreenToClient`和`...

    屏幕取词器(获取鼠标选取的文字)

    首先,我们要实现屏幕取词器的核心功能——全局监听鼠标的选取操作。这需要用到Windows API中的`SetWindowsHookEx`函数,它可以让我们安装一个钩子,监听系统中特定类型的事件。在C#中,我们需要使用P/Invoke技术来...

    用VCHook技术实现屏幕取词

    总的来说,使用VCHook技术实现屏幕取词涉及Windows API的钩子机制、鼠标事件处理、屏幕截图、OCR识别和用户体验设计等多个方面。通过这些技术的巧妙结合,我们可以创建一个高效、准确且用户友好的屏幕取词工具,帮助...

    金山词霸屏幕取词原理

    鼠标屏幕取词技术的原理和实现 “鼠标屏幕取词”技术是在电子字典中得到广泛地应用的,如四通利方和金山词霸等软件,这个技术看似简单,其实在WINDOWS系统中实现却是非常复杂的,总的来说有两种实现方式: 第一种:...

    基于Winform框架的屏幕取词源码

    总的来说,基于Winform框架的屏幕取词源码是一个有价值的项目,它不仅能够帮助开发者提升C#编程技能,还能深入理解Windows操作系统底层的工作原理,同时增强对图形界面设计和事件处理的理解。通过实际动手操作,新手...

    类似金山词霸的屏幕取词示例代码.rar_取词_屏幕取词_屏幕取词 delphi_金山词霸

    屏幕取词技术是一种在计算机屏幕上选取任意单词或短语,并即时显示其翻译的功能,常见于各种翻译软件中,如金山词霸。这个压缩包“类似金山词霸的屏幕取词示例代码.rar”包含了实现这一功能的Delphi编程示例代码,...

    windows下屏幕取词

    本文旨在深入探讨屏幕取词技术的原理及其实现方法,尤其是针对Windows操作系统环境下的具体实现细节。 #### 二、屏幕取词技术的核心:主动获取与被动获取 屏幕取词技术主要分为两大类:主动获取和被动获取。 **...

    win32完成的简单划词取词-屏幕取词

    屏幕取词功能是一种常见于翻译软件中的实用工具,它允许用户在阅读电子文档或浏览网页时,快速选取并翻译选定的单词或短语。在这个win32完成的简单...如果你对Win32编程或屏幕取词技术感兴趣,这是一个很好的学习实例。

    VC++屏幕取词源代码.zip

    【VC++屏幕取词源代码】是一个基于Visual C++编程环境的项目,旨在实现...通过分析和理解这些源代码,开发者可以学习到屏幕取词的核心技术和实现细节,这对于开发类似工具或者深入理解Windows系统编程都有极大的帮助。

    屏幕取词VC

    在编程领域,屏幕取词技术通常涉及到图像处理、OCR(Optical Character Recognition,光学字符识别)以及自然语言处理等技术。这款工具解决了用户在浏览网页或阅读电子文档时,遇到不熟悉的单词或短语,无需手动复制...

    API-HOOK.rar_api hook_hook api_hook 实现划词_屏幕取词_屏幕取词api

    总的来说,这个API_HOOK源码提供了一个了解和学习如何利用API Hook技术实现屏幕取词功能的实例,涵盖了Windows编程、Hook技术以及可能的NLP应用。对于想要深入理解Windows系统级编程和Hook机制的开发者来说,这是一...

    屏幕取词技术内幕资料(5KB)

    学习和研究这个源码可以深入了解屏幕取词技术的实现细节,对于开发者来说是一份宝贵的参考资料。 综上所述,屏幕取词技术结合了图像处理、OCR和自然语言处理等技术,为用户提供了一种高效的信息获取手段。随着技术...

    屏幕取词技术内幕资料

    一、屏幕取词技术原理 屏幕取词技术的核心是光学字符识别(OCR,Optical Character Recognition)和图像处理技术。首先,软件通过捕获用户屏幕上的图像,将静态的屏幕内容转化为数字化的图像。然后,OCR技术分析...

    屏幕取词原理

    屏幕取词技术主要依赖于Windows API(应用程序编程接口),特别是与窗口管理相关的API。这些API允许程序访问并控制操作系统层面的资源和服务。具体而言,屏幕取词功能涉及到以下核心步骤: 1. **获取鼠标位置**:...

    Get word 屏幕取词的实现

    屏幕取词功能是许多翻译软件或学习...总的来说,实现屏幕取词是一项涉及图形编程、图像处理和自然语言处理的技术挑战。通过VC++开发,开发者可以充分利用Windows API和第三方库,构建高效且用户友好的屏幕取词工具。

    getword (2)_GETWORD_devlop开发_屏幕取词python_

    开发者可能使用API调用来实现屏幕取词功能,比如Windows API中的GetWindowText函数来获取鼠标选定的文本,或者使用Win32COM接口与Python进行交互,调用Python编写的屏幕取词服务。 "jb51.net.txt"可能是一个教程或...

    金山词霸屏幕取词功能源程序.zip

    【屏幕取词技术详解】 ...通过分析和理解这个压缩包中的文件,我们可以学习到屏幕取词技术的基本原理和实现方法,这对于软件开发者,尤其是想要开发类似功能的程序员来说,是非常有价值的参考资料。

Global site tag (gtag.js) - Google Analytics