TinyHTTPd源码剖析

介绍

TinyHTTPd是超轻量级的HTTP服务器,使用C语言开发,全部代码只有502行(包括注释),还附带一个简单的客户端。说实话,代码写得并不漂亮,但优点在于小,可以通过阅读这几百行代码了解HTTP server的本质。阅读代码前需要了解基本的HTTP知识。

源码剖析

主要函数

TinyHTTPd的主要函数如下:

1
2
3
4
5
6
7
8
9
10
11
12
void accept_request(int);
void bad_request(int);
void cat(int, FILE *);
void cannot_execute(int);
void error_die(const char *);
void execute_cgi(int, const char *, const char *, const char *);
int get_line(int, char *, int);
void headers(int, const char *);
void not_found(int);
void serve_file(int, const char *);
int startup(u_short *);
void unimplemented(int);

上面有几个函数用来给client发送HTML文本,就无需注释。本文只剖析几个重要的函数。

main

main函数首先调用startup函数创建一个监听套接字,然后进入一个无限循环,等待客户端请求,一旦有请求,accept函数返回一个已连接套接字,然后调用aceept_request函数处理请求。完成之后,关闭监听套接字。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
int main(void)
{
int server_sock = -1;
u_short port = 0;
int client_sock = -1;
struct sockaddr_in client_name;
socklen_t client_name_len = sizeof(client_name);

server_sock = startup(&port);
printf("httpd running on port %d\n", port);

while (1) {
client_sock = accept(server_sock,
(struct sockaddr *)&client_name,
&client_name_len);
if (client_sock == -1)
error_die("accept");
accept_request(client_sock); // 处理请求
}

close(server_sock);

return 0;
}

get_line

每一行都以回车和换行符\r\n结尾,但应用程序也应该接受单个换行符\n作为行的终止。get_line函数每次读取一行内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
int get_line(int sock, char *buf, int size)
{
int i = 0;
char c = '\0';
int n;

while ((i < size - 1) && (c != '\n')) {
n = recv(sock, &c, 1, 0);
if (n > 0) {
// 如果末尾是\r或\r\n组合,设为\n
if (c == '\r') {
// MSG_PEEK选项使得下一次依然可以读取这个字符
n = recv(sock, &c, 1, MSG_PEEK);
/* DEBUG printf("%02X\n", c); */
if ((n > 0) && (c == '\n'))
recv(sock, &c, 1, 0);
else
c = '\n';
}
buf[i] = c;
i++;
} else { // 如果没有可读的,将c设置为\n以终止循环
c = '\n';
}
}
buf[i] = '\0';

return i;
}

startup

startup函数创建一个监听套接字,等待客户的请求。按照建立TCP连接的正常流程依次调用socketbindlisten函数。监听套接字端口既可以指定也可以动态分配一个随机端口。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
int startup(u_short *port)
{
int httpd = 0;
struct sockaddr_in name;

httpd = socket(PF_INET, SOCK_STREAM, 0);
if (httpd == -1)
error_die("socket");
memset(&name, 0, sizeof(name));
name.sin_family = AF_INET;
name.sin_port = htons(*port);
name.sin_addr.s_addr = htonl(INADDR_ANY);
if (bind(httpd, (struct sockaddr *)&name, sizeof(name)) < 0)
error_die("bind");

if (*port == 0) { // 分配随机端口
socklen_t namelen = sizeof(name);
if (getsockname(httpd, (struct sockaddr *)&name, &namelen) == -1)
error_die("getsockname");
*port = ntohs(name.sin_port);
}
if (listen(httpd, 5) < 0)
error_die("listen");

return httpd;
}

accept_request

accept_request函数处理客户端的HTTP请求报文。首先从第一行的请求行中提取METHOD,然后解析url字符串。如果METHOD是POST,或METHOD是GET且字符串中包含问号,则为动态请求,调用execute_cgi函数运行一个cgi脚本。如果是静态请求则调用serve_file,函数直接将本地文件发送给客户端。

举个例子,假设method数组的内容为字符串GET,且url数组的初始内容为字符串:

1
/test/demo_form.asp?name1=value1&name2=value2

由于包含问号,这是一个动态请求。经过处理后,url数组的内容变为/test/demo_form.aspquery_string指针指向问号后面的内容name1=value1&name2=value2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
void accept_request(int client)
{
char buf[1024];
int numchars;
char method[255];
char url[255];
char path[512];
size_t i, j;
struct stat st;
int cgi = 0;

char *query_string = NULL;

// 获取请求报文的第一行,即为请求行
numchars = get_line(client, buf, sizeof(buf));
i = 0;
j = 0;
// 获取第一个单词 即为method,常见的method有GET,POST,HEAD等
while (!ISspace(buf[j]) && (i < sizeof(method) - 1)) {
method[i] = buf[j];
i++;
j++;
}
method[i] = '\0';

// 只能处理GET和POST method,否则通知客户端请求的操作非法
if (strcasecmp(method, "GET") && strcasecmp(method, "POST")) {
unimplemented(client);
return;
}
if (strcasecmp(method, "POST") == 0)
cgi = 1;

// 获取url
i = 0;
while (ISspace(buf[j]) && (j < sizeof(buf)))
j++;
while (!ISspace(buf[j]) && (i < sizeof(url) - 1) && (j < sizeof(buf))) {
url[i] = buf[j];
i++;
j++;
}
url[i] = '\0';

// GET请求,如果有问号,则将query_string指向?后的内容
// 没有问号,则query_string为NULL
if (strcasecmp(method, "GET") == 0) {
query_string = url;
while ((*query_string != '?') && (*query_string != '\0'))
query_string++;
// 有问号,则为动态请求
if (*query_string == '?') {
cgi = 1;
*query_string = '\0';
query_string++;
}
}

sprintf(path, "htdocs%s", url); // 内容存储在htdocs目录下
if (path[strlen(path) - 1] == '/') // '/'代表默认的home page
strcat(path, "index.html");

// 如果stat返回错误,回复客户端not_found
if (stat(path, &st) == -1) {
// 读取并丢弃Header,第一行请求行之后便是请求头部
while ((numchars > 0) && strcmp("\n", buf))
numchars = get_line(client, buf, sizeof(buf));
not_found(client);
} else {
// 如果是目录,请求其默认的home page
if ((st.st_mode & S_IFMT) == S_IFDIR)
strcat(path, "/index.html");
// 如果owner group other任何一个有执行权限
if ((st.st_mode & S_IXUSR) ||
(st.st_mode & S_IXGRP) ||
(st.st_mode & S_IXOTH) )
{
cgi = 1;
}

if (!cgi)
serve_file(client, path); // 静态请求,直接从硬盘读取文件发送出去
else
execute_cgi(client, path, method, query_string); // 动态请求,执行cgi脚本
}

close(client);
}

server_file

如果是静态请求,将本地文件发送给客户端:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
// 将文件传送给client
void serve_file(int client, const char *filename)
{
FILE *resource = NULL;
int numchars = 1;
char buf[1024];

buf[0] = 'A';
buf[1] = '\0';
while ((numchars > 0) && strcmp("\n", buf))
numchars = get_line(client, buf, sizeof(buf));

resource = fopen(filename, "r");
if (resource == NULL)
not_found(client);
else {
// 将 header 和文件内容传送给 client
headers(client, filename);
cat(client, resource);
}
fclose(resource);
}

// 将文件全部内容发送到一个socket上(静态请求)
void cat(int client, FILE *resource)
{
char buf[1024];

fgets(buf, sizeof(buf), resource);
while (!feof(resource)) {
send(client, buf, strlen(buf), 0);
fgets(buf, sizeof(buf), resource);
}
}

execute_cgi

该函数处理动态请求。如果是GET则读取Header并丢弃,如果是POST,则一直读取头部直到遇到Content-Length,解析出长度并保存到content_length变量中。随后向客户端发送响应报文的第一行——状态行。接下来,父进程创建两个管道,fork一个子进程,子进程设置环境变量之后,调用execl函数运行cgi脚本处理数据,并通过管道和重定向将数据发送给父进程,具体的数据流向请看代码中的注释图。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
void execute_cgi(int client, const char *path,
const char *method, const char *query_string)
{
char buf[1024];
int cgi_output[2];
int cgi_input[2];
pid_t pid;
int status;
int i;
char c;
int numchars = 1;
int content_length = -1;

buf[0] = 'A';
buf[1] = '\0';
if (strcasecmp(method, "GET") == 0) {
// 读取并丢弃Header
while ((numchars > 0) && strcmp("\n", buf))
numchars = get_line(client, buf, sizeof(buf));
} else { // POST
numchars = get_line(client, buf, sizeof(buf)); // 读取Header
// 一行行地读取,直到遇到content_length
while ((numchars > 0) && strcmp("\n", buf)) {
buf[15] = '\0';
if (strcasecmp(buf, "Content-Length:") == 0)
content_length = atoi(&(buf[16]));
numchars = get_line(client, buf, sizeof(buf));
}
if (content_length == -1) {
bad_request(client);
return;
}
}

sprintf(buf, "HTTP/1.0 200 OK\r\n");
send(client, buf, strlen(buf), 0);

// 关键部分:父进程和子进程通过管道通信
// 子进程父进程管道流向图 P表示parent, C表示child
/*
send to brower data
<<<---- ---------<--<--<----------- -----<<<
\ | | /
\ | | /
(P) fd 1 (C) fd 0 (C) (P)
| | | |
^ v ^ v
^ v ^ v
| | | |
cgi_output [0] [1] cgi_input [0] [1]
| | | |
|---<---| |---<---|
pipe pipe
*/

// 建立管道
if (pipe(cgi_output) < 0) {
cannot_execute(client);
return;
}
if (pipe(cgi_input) < 0) {
cannot_execute(client);
return;
}

if ( (pid = fork()) < 0 ) {
cannot_execute(client);
return;
}

if (pid == 0) { // 子进程中执行cgi脚本,cgi脚本将相关内容打印到标准输出
char meth_env[255];
char query_env[255];
char length_env[255];

dup2(cgi_output[1], 1); // 将cgi_output的写入端重定向到标准输出
dup2(cgi_input[0], 0); // 将cgi_input的写入端重定向到标准输入
close(cgi_output[0]); // 关闭cgi_output的读取端
close(cgi_input[1]); // 关闭cgi_input的写入端
sprintf(meth_env, "REQUEST_METHOD=%s", method);
putenv(meth_env);
if (strcasecmp(method, "GET") == 0) { // GET
// 设定query_string环境变量
sprintf(query_env, "QUERY_STRING=%s", query_string);
putenv(query_env);
} else { // POST
// 设定query_length环境变量
sprintf(length_env, "CONTENT_LENGTH=%d", content_length);
putenv(length_env);
}
// 执行cgi脚本,cgi脚本输出到child的标准输出,通过管道,最终到达了父进程
// 父进程会将其发送给客户端
execl(path, path, NULL);
exit(0);
} else { // 父进程将处理后的请求通过管道发送给子进程
close(cgi_output[1]); // 关闭cgi_output的写入端
close(cgi_input[0]); // 关闭cgi_input的读取端
// 接收POST过来的数据
if (strcasecmp(method, "POST") == 0) {
for (i = 0; i < content_length; i++) {
// 从客户端读取一个个字符,最后通过管道重定向到child的标准输入
// 经过上述的管道,最终发送回给客户端
recv(client, &c, 1, 0);
write(cgi_input[1], &c, 1);
}
}
// 将从管道中读取的内容发送到client
while (read(cgi_output[0], &c, 1) > 0)
send(client, &c, 1, 0);

// 关闭两个管道的另外一端
close(cgi_output[0]);
close(cgi_input[1]);
waitpid(pid, &status, 0);
}
}