概述
学C语言有很长一段时间了,想做做笔记,把C和C++相关的比较容易忽视的地方记下来,也希望可以给需要的同学一些帮助。
我的这些文章不想对C和C++的语法进行讲解和罗列,这些东西随便找一本书就讲的比我清楚,我只是想把一般人忽视的地方尽自己所能描述一下。权当班门弄斧,贻笑大方了。
首先我想先从C和C++的一些基本概念入手。
main()函数
稍微学过C和C++的人都知道main()函数市所有C和C++程序必不可少的东西。叫做主函数。所有的程序都应该从main()函数开始执行。但是你们又对这个函数了解多少呢?
我们都知道C和C++是一种函数语言,几乎绝大多数的功能都是通过各种函数的调用来实现的,C和C++也提供了丰富的函数库供编程人员调用。可虽然main()函数每个C程序都必须有的函数,在C或者C++的函数库里却没有叫做main()的函数,它是需要程序设计人员实现的函数。
而且,你们发现了没有,main并不是C和C++的保留字。因此理论上,你可以在其他地方使用main这个名字,比如变量名、类名字、名字空间的名字甚至成员函数的名字。但是,即使这样,你也不能修改main()函数本身的函数名,否则连接器就会报告错误。
main()函数是C和C++程序的入口,这是因为C和C++语言实现会有一个启动函数,比如MS-C++的启动函数就叫做
mainCRTStartup()或者WinMainCRT-Startup()。在这个启动函数的最后会调用main()函数,然后再调用exit()函数结束程序。如果没有main()函数,当然会报错了。所以再C和C++开发环境中main()函数其实是一个回调函数。它是需要我们来实现的。
有些同学可能学过一些应用程序框架,比如MFC什么的。这些程序代码中往往找不到main()函数,这是因为那些应用程序框架把main()函数的实现给隐藏起来了,main()函数在它们这里有固定的实现模式,所以不需要我们编写。在连接阶段,框架会自动将包含main()实现的库加进来连接。
main()函数也是有原型的。这个原型已经是一种标准了,在ISO/IEC14882中对main()的原型进行了定义。
int main(){/*......*/} 和 int main(int argc, char *argv[]){/*......*/}
上面这两种形式是最具有可移植性的正确写法。当然不同的编译器可能会允许出现一些扩展。比如允许main()返回void,或者有第三个参数char *env[]什么的。这个就要看具体的编译器文档了。
关于返回值,我们知道main()返回的是int类型的。到底返回什么是有不同含义的。一般情况下,返回0,表示程序正常结束,返回任何非0表示错误或非正常退出。前面讲到了,启动函数最后还会调用exit()函数。那么main()函数的返回值就会作为exit()函数的操作数来返回操作系统。
在C++当中对main()函数还有一些特殊的限制。比如:
- 不能重载
- 不能内联
- 不能定义为静态的
- 不能取其地址
- 不能由用户自己调用
关于main()函数的参数,它可以让编译好的执行程序具有处理命令行参数的能力。这里需要注意,不要把“命令行参数”和main()函数的“函数实参”混淆,这是两个不同的概念。命令行参数由启动程序截获并打包成字符串数组传递给main()的形参argv[],而包括命令字(也就是执行文件自己的名字)在内的所有参数的个数则被传递给形参argc。试一下吧,咱们来模拟copy命令写个简单的文件拷贝程序。
//mycopy.c:文件拷贝程序。 #include <stdio.h> int main(int argCount, char* argValue[]) { FILE *srcFile = 0; FILE *destFile = 0; int ch = 0; if(argCount != 3) { printf("使用方法:%s 原文件 目标文件\n",argValue[0]); } else { if((srcFile = fopen(argValue[1],"r")) == 0) { printf("无法打开原文件!\"%s\"!",argValue[1]); } else { if((destFile = fopen(argValue[2],"w")) == 0) { printf("无法打开目标文件!\"%s\"!",argValue[2]); fclose(srcFile); } else { while((ch = fgetc(srcFile)) != EOF) { fputc(ch,destFile); } fclose(srcFile); fclose(destFile); return 0; } } } return 1; } //用法:mycopy C:\file1.dat D:\newfile.dat
内部名称
在编写C程序的时候如果没有main()函数,连接器会报错。一般报错信息会提示“unresolved external symbol_main”。这里的"_main"其实就是编译器为main生成的内部名称。其实C和C++语言在编译过程中都会按照特定的规则把用户定义的标识符(函数、变量、类型、名字空间什么的)转换为相应的内部名称。而这些规则还跟指定的连接规范有关。比如,在C语言中,main的内部名称就叫做_main。
C语言这么做,是告诉连接器,这个东西是个函数。实际上,C语言在所有函数的函数名前其实都是加了前缀“_”的,以此来区别函数名和其他标识符名称。
这种规范在C++又是另一种样子。这是因为在C中,所有函数只要不是局部于编译单元(文件作用域)的static函数,就会是具有extern连接类型的和global作用域的全局函数。全局函数是不可以有同名的。但是在C++里面,可以在不同的作用域,比如class,struct,union,namespace中定义同名的函数,甚至在同一个作用域也可以定义同名函数,也就是函数重载。那么转换为内部名称的连接规范就要复杂一些了。比如:
class Sample_1 { char m_name[16]; public: void foo(char *newName); void foo(int age); }; class Sample_2 { char m_name[16]; public: void foo(char *newName); void foo(bool sex); };
在其他地方根据这两个类生成两个实例,并进行操作:
Sample_1 a; Sample_2 b; a.foo("aaa"); a.foo(100); b.foo("bbb"); b.foo(false);
这里有四个函数,但是确是同一个名称。编译器应该怎么区分呢?通过各自对象的成员标识符区分?那是在代码中区分的,但是在连接器看来,所有函数其实都是全局函数,而全局函数是不能重名的。所以为了避免二义,在C++中有一个名字修饰规则。也就是在函数名前面添加各级作用域的名称以及重载函数经过编码的参数信息。比如上面四次调用foo函数,其实它们会调用四个具有全局名称的函数,分别是Sample_1_foo@pch@1,Sample_1_foo@int@1,Sample_2_foo@pch@1,Sample_2_foo@int@1。
然而,这种标准并不是强制的,所以不同厂家开发的C++编译器有可能会有些许不同,而这也正是导致不同厂家的C++编译器和连接器不能兼容的原因。
那么好了,当使用不同编程语言联合开发时候,就要定义一个统一的规范,这个规范叫做连接规范。这个很好理解了吧,因为如果同一个标识符在不同编译单元中用不同的连接规范,就会产生不一致的内部名称,连接肯定会失败。
所以,在开发程序库的时候就一定要明确你要用那条连接规范。比如,编写C程序是就要规定C连接规范:extern “C”。大约有这么几种情况:
- 仅对一个类型、函数、变量或常量指定连接规范;
extern "C" void WinMainCRTStartup(); extern "C" const CLSID CLSID_DataConverter; extern "C" struct Student{/*....*/}; extern "C" Student g_Student;
- 对一段代码限定连接规范
#ifdef __cplusplus extern "C" { #endif const int MAX_AGE = 200; #pragma pack(push,4) typedef struct _Person { char *m_Name; int m_Age; } Person, *PersonPtr; #pragma pack(pop) Person g_Me; int __cdecl memcmp(const void*, const void*, size_t); void* __cdecl memcpy(void*, const void*, size_t); void* __cdecl memset(void*, int, size_t); #ifdef __cplusplus } #endif
- 当前使用的是C++编译器,并且使用了extern "C"限定了一段代码的连接规范,但又想在其中某行或某段代码保持C++的连接规范。
#ifdef __cplusplus extern "C" { #endif const int MAX_AGE = 200; #pragma pack(push,4) typedef struct _Person { char *m_Name; int m_Age; } Person, *PersonPtr; #pragma pack(pop) Person g_Me; #if __SUPPORT_EXTERN_CPP_ extern "C++"{ #endif int __cdecl memcmp(const void*, const void*, size_t); void* __cdecl memcpy(void*, const void*, size_t); #if __SUPPORT_EXTERN_CPP_ } #endif void* __cdecl memset(void*, int, size_t); #ifdef __cplusplus } #endif
- 某个声明中指定了某个标识符的连接规范为extern “C”,那么对应的定义也要指定extern “C”:
#ifdef __cplusplus extern "C" { #endif memcmp(const void*, const void*, size_t); #ifdef __cplusplus } #endif #ifdef __cplusplus extern "C" { #endif memcmp(const void *p, const void *a, size_t len) { //功能实现 } #ifdef __cplusplus } #endif
其实如果是面向接口的编程,就不用考虑这么多了。因为即使接口两端的内部名称不同,只要使用了一致的成员对其和排列方式,并遵守一致的调用规范,一致的函数实现方式。也就是C++一致的对象模型,那么基本不会有什么问题的。
变量和它的初始化
在C和C++中,全局变量(extern或static的)存放在程序的静态数据区里面。这些变量在程序进入main()之前就被创建了,并在main()结束后销毁,C和C++提供了一个默认的全局初始化器0。也就是编译器会默认的用0来初始化它们。函数内部的static变量和类的static成员也是在静态存储区,因此也会默认初始化为0。除非你在创建的时候就提供了初值。这是编译器对静态变量的待遇。而对于其他的自动变量,就需要我们给他初始化了。不要指望编译器自动对它们初始化。
所以,全局变量的声明和定义应当放在源文件的开头部位。
变量的初始化和变量的赋值是有区别的。初始化是发生在变量创建的同时,而赋值是在程序中变量创建后干的。
前面说了,对静态存储区的变量(比如全局变量,静态变量什么)的进行初始化是编译器自动进行的,但是局部变量的初始化确实需要编程人员手动进行。
还有,在一个编程单元中,全局变量的初始值不要依赖另一个编译单元的全局变量。什么意思?比如:
//file1.c int g_x = 100;
//file2.c extern int g_x; double g_d = g_x + 10;
这两个编译单元编译完成后进行连接,两个全局变量到底先初始化哪个并不确定,连接器也不能保证这一点。先初始化g_x,那g_d也就能顺利初始化,而反之,g_d就不一定是多少了。
另外,C和C++都会有现成的库。就是文件开头包含的那些*.h文件。注意哦,C的库可是有多线程版和单线程版,开发多线程程序应该使用多线程版本的库。另外,在多人开发软件是,库的版本一定要统一。
编译时和运行时
源代码文件编写的功能有些时运行时起作用,有些编译时就起作用的。这件事需要区分的。比如预编译伪指令、类定义、外部对象声明、函数原型、修饰符号(const,static那些)、类成员访问说明符号(public、private那些)以及连接规范是在编译阶段发挥作用的,可执行程序里是不存在这些东西的。而容器越界访问、虚函数动态决议、动态连接、动态内存分配、异常处理、RTTI这些则是在运行时发挥作用的。比如:
int* pInt = new int[10]; pInt += 100; cout << *pInt << endl; *pInt = 1000;
这段代码一般在编译阶段没什么问题,但运行时会出错。所以,我们在程序设计时就要对运行的行为有所预见,通过编译连接的程序在运行时不见得正确。
总结
本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注好代码网的更多内容!