这几天在水木CSArch版,lingcore(灵芯)总结并发表了从ACM会议看中国大陆计算机科学与国外的差距一文,引起了版面的热烈讨论。我觉得他独立完成的这个工作,是值得引起学界和决策界的广泛注意的。闲话少说,特将此文转载。
关于转载的几点说明:
1. 作者(lingcore)同意该文被自由转载
2. 作者将该文按照GFDL发布,所以所有转载,修改都应该继续按照GFDL发布。如果你从我这里转走此文,也希望保留原文的作者和GFDL信息。
3. 该文首发在水木社区的CSArch版。
4. 文中难免有错误和疏漏,单是考虑到作者一人完成这样的工作量,并且按照GFDL自由发布,请尊重作者的工作和劳动。
5. 我这里仅仅是个转载,原文网址: http://www.newsmth.net/bbscon.php?bid=272&id=19899
从ACM会议看中国大陆计算机科学与国外的差距
作者:灵芯
2006年4月24日
摘要
美国计算机协会ACM组织了一百多个计算机方面的专业会议,其中包括计算机科学的多个骨干领域中的顶级会议。本文按第一作者为标准统计中国大陆学者在历年ACM 会议中的发表情况,着重比较了集成电路,体系结构,软件工程,程序语言等核心领域内中国同国外的差距。统计结果显示,中国ACM论文数仅占ACM论文总数的0.83%,半数以上ACM会议中没有中国论文,在一批核心会议中,中国论文数等于零或接近于零。在集成电路设计会议DAC上,中国大陆论文数仅为台湾省论文数的1/6;在反映计算机设计水平的两大体系结构会议ISCA和MICRO里,中国在十年前尚有若干篇论文,最近十年论文数反而为零;在九个程序语言的会议中,完全由中国独立完成的论文只有一篇。另一方面,统计显示,在多媒体会议MM上面,中国论文数远远超过日法意德等国。
正文
本文分析中国大陆学者在ACM各个会议中论文发表情况。希望以此了解中国在计算机学科的各个分支中所处的地位。找出那些分支是中国的强项,那些分支是中国的弱项,那些分支中国还处在空白状态。为计算机科学发展决策提供参考。
国际计算机科学界普遍认为会议比杂志更重要[8,12],一些招聘和提职的指南上特别强调不可重杂志轻会议[13]。在高水平会议上发表论文的难度很大,据介绍,中科院同INTEL合作的一篇2004年的PLDI会议论文花费了15人两年的工作量,这也是中国单位第一次参加PLDI会议的论文(不是第一作者)。正因为这些会议对论文的严格要求,所以被会议录取的论文能够代表专业里的先进水平。
ACM名下的计算机专业会议涵盖了计算机科学的几个主要分支最高水平的会议。其中包括集成电路设计方面的DAC,ISSS,ICCAD会议,体系结构方面的ISCA和MICRO会议,超级计算方面的SC和ISC会议,程序语言方面的POPL,PPDP会议,操作系统方面的SOSC会议,数据库方面的SIGMOD和PODS等等。尽管还有许多重要的会议不在ACM会议集之中,但是对ACM会议论文发表情况依然可以成为衡量一个国家计算机科学研究水平的重要依据。
这项研究工作是业余进行的,所以没有使用那些需要付费的论文数据库系统。研究方法是使用PERL程序直接从ACM网站[4]上抽取出所有的会议论文网页,再从这些网页中抽取出每篇论文第一作者所在单位和国别,然后用一个AWK程序计算每一种会议中各个国家的论文数,最后把各个会议中中国的论文数同其他国家的论文数进行比较。这个统计方法没有计入中国作者不是第一作者的论文,其中也包括上面提到的PLDI论文,该文第一作者(执笔人)是INTEL的学者。
由于一些文章的作者单位栏中没有包含国别,所以这项统计只是一个近似的结果。中国大陆的文章通常写明China,所以遗漏中国论文的情况很罕见。此外,我们把单位名中包含Beijing,Pekin,Shanghai等关键字的记录都统计在中国论文内。中国台湾省和香港特区作者的单位名中有时也包含China,统计程序把这些记录都排除。本文中除特别说明之外,“中国论文”专指只中国大陆学者的论文。统计中,遗漏其他国家论文的情况相对多一些,比如加拿大多伦多大学有时不标明加拿大,因此,对其他国家论文数的统计可能偏少,但不会差的很远。美国的单位一般不含国名,因此目前程序还没有统计美国的论文总数。作为一个替代,程序统计了美国加州的论文数。程序运行结果表明,美国加州的论文数通常高于其他发达国家平均数的数倍。下面会看到,中国同美国加州的差距已经很大。
统计的不精确性的另一个原因ACM网站数据缺漏。个别ACM会议中没有列出作者单位,比如ISCA92,ISCA93;还有一些会议集缺少最近几年的会议,比如SIGGRAPH在03年之后的会议还没有进入ACM网上数据库。因此有关这些会议的数据不全。尽管有少量的数据缺失,但并不仿碍这次统计所反映的总体情况。
网络上抽取论文信息的程序日夜运行整整一个星期,共收集了ACM173个会议总共八万多篇论文。这个收集工作包含了大部分ACM会议,个别只有一两年会议历史,尚无历史文档的会议没有统计在内。附录中列出在每个会议中中国的论文数,占总数百分比以及同国外的比较。
统计结果显示,在这173个会议中,中国论文超过100篇的会议有三个,它们是:
| 会议代号 |
中国论文数 |
占总数百分比 |
美国加州 |
六个发达国家平均数 |
| AICPS |
167 |
3.85% |
136 |
174 |
|
|
| ASPDAC |
102 |
7.23% |
161 |
47 |
|
|
| MM |
102 |
5.91% |
174 |
58 |
|
|
—–
上表中的中国论文数指中国大陆学者在该会议中历年发表的论文总和。为了比较,我们同时列出中国论文数占会议论文总数的百分比,美国加州在该会议中的论文总数,六个发达国家(德,法,意,加拿大,澳大利亚和日本论文总数的平均值。该表显示中国在这三个会议中的情况比较好,论文数超过或接近几个发达国家的平均水平。但是在ASPDAC和MM会议中只有美国加州论文数的2/3。
在上述三个会议中,AICPS是一大批会议的总和,其中有些是地区性会议,有些是近年的专业会议;ASPDAC是亚太地区的集成电路设计会议。虽然地区性会议不一定代表专业领域的最高水平,但是上述数据也表明中国在集成电路研究方面的活跃。在该会中,清华大学表现最为出色,论文数为56篇,占了中国论文数的一半以上。MM是国际多媒体会议,在这个会议上中国论文数超过六个发达国家平均数几乎一倍,说明中国已在这一领域进入国际先进行列。在MM中国论文中,微软中国研究所36篇,清华27篇,其次是中国科大和浙大。
中国论文数在10篇到99篇之间的会议有8个,它们是:
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文占
总数百分比 |
美国加州 |
六个发达
国家平均数 |
| SIGGRAPH |
10 |
2165 |
0.46% |
190 |
44 |
| CSC |
11 |
1150 |
0.96% |
37 |
11 |
| VRST |
12 |
281 |
4.27% |
13 |
10 |
| CIKM |
16 |
1014 |
1.58% |
68 |
30 |
| ISSAC |
17 |
714 |
2.38% |
23 |
45 |
| SAC |
23 |
2117 |
1.09% |
84 |
76 |
| SIGIR |
28 |
1352 |
2.07% |
50 |
36 |
| WWW |
36 |
731 |
4.92% |
97 |
25 |
—–
其中互联网会议WWW和虚实体软件会议VRST的论文数超过论文总数的4%,也超过了六个发达国家的平均数。VRST中表现突出的是浙江大学,占了12篇论文中的7篇。其次是符号代数计算会议ISSAC,信息检索会议SIGIR以及信息和知识管理会议CIKM,中国论文数占总数的1.58%到2.38%之间。图像学和交互式系统会议SIGGRAPH虽然有10篇论文,但只占会议论文总数的0.46%,是发达国家平均数的1/4,是美国加州论文数的1/19。在这个领域中国同国际水准差距很大。CSC(计算机科学)和SAC(应用计算)两个会议从名字上看难以归入专业会议,其水平需要内行专家来评价。
在上述“中国论文”中,有很大一批是微软中国研究院的论文,还有一些是中国研究单位同国外合作的成果。比如SIGGRAPH 的10篇论文中有9篇来自微软,另一篇文章是复旦大学同美国加州DAVIS 大学合作成果。微软中国的论文在WWW中占了9篇,在SIGIR中占了12篇。
如果按论文占会议总数的百分比排列,那么中国论文占论文总数2%以上的会议一共有13个:
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| DOLAP |
2 |
100 |
2.00% |
0 |
4 |
| SIGIR |
28 |
1352 |
2.07% |
50 |
36 |
| Middleware |
1 |
47 |
2.13% |
4 |
1 |
| ISSAC |
17 |
714 |
2.38% |
23 |
45 |
| ASE |
4 |
162 |
2.47% |
6 |
6 |
| CF |
3 |
108 |
2.78% |
7 |
4 |
| WIDM |
3 |
101 |
2.97% |
4 |
3 |
| GRAPHITE |
5 |
159 |
3.14% |
0 |
5 |
| AICPS |
167 |
4333 |
3.85% |
136 |
174 |
| VRST |
12 |
281 |
4.27% |
13 |
10 |
| WWW |
36 |
731 |
4.92% |
97 |
25 |
| MM |
102 |
1727 |
5.91% |
174 |
58 |
| ASPDAC |
102 |
1410 |
7.23% |
161 |
47 |
—–
除上面分析过的几个会议之外,其他几个会议规模比较小,其中每个会议中中国论文总数不到5篇。
这次分析的ACM会议总共有173个,上面13个会议不到会议总数的8%。下面是按照中国论文占会议总数的百分比列出中国论文在ACM会议中的分布情况:
中国论文占会议 会议数
论文总数百分比
> 2% 13
>1% 30
> 0% 76
= 0 97
上表显示,在97个ACM会议中,中国没有一篇论文,这些会议占了本次统计的ACM会议总数的56%。
下面对ACM会议的几个大方向做进一步的分析。
核心领域论文发表情况
一。集成电路设计。
设计自动化会议(Design Automation Conference(DAC))是ACM在集成电路领域历史最悠久的会议。自1964年以来的42年中,该会议上共发表过的3281篇论文,其中中国的论文只有9篇,仅占论文总数的0.27%。相比之下,法意德在该会议中的论文数分别为:43,36,99,高出中国4倍到10倍;南朝鲜和台湾的论文数为:36和56,高出中国大陆4倍到6倍;美国仅加州一地在该会议上的论文数就达673篇,高出中国七十几倍,中美间的差距之大几乎无法衡量。
值得指出的是,清华大学的论文占了9篇中国论文中的6篇。
下面是集成电路设计相关的几个主要会议上中国论文发表情况(亚太地区会议ASPDAC没包括在内):
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| CODES |
0 |
398 |
0.00% |
51 |
14 |
| ISSS |
0 |
322 |
0.00% |
53 |
14 |
| SBCCI |
0 |
111 |
0.00% |
6 |
5 |
| DATE |
3 |
1414 |
0.21% |
120 |
51 |
| DAC |
9 |
3281 |
0.27% |
673 |
59 |
| ICCAD |
5 |
1483 |
0.34% |
342 |
25 |
| EuroDAC |
2 |
487 |
0.41% |
48 |
26 |
| ISLPED |
4 |
746 |
0.54% |
116 |
17 |
| FPGA |
5 |
459 |
1.09% |
100 |
15 |
| ISPD |
6 |
338 |
1.78% |
88 |
5 |
| GLVLSI |
7 |
368 |
1.90% |
34 |
9 |
|
|
|
|
|
|
| 总计 |
41 |
9296 |
0.44% |
1625 |
235 |
—–
在这些会议中,清华大学的论文数为21篇,占中国论文数一半以上。显示出清华大学在集成电路研究方面的国内领先地位。尤其是在物理设计领域,清华占了6篇论文中的5篇。另外,复旦大学在FPGA领域比较突出,占了5篇论文中的3篇。
整体而言,中国在上述集成电路会议中的论文数不到六个发达国家平均数的1/5,相当于美国加州论文数的1/40。相比之下,中国在物理设计(ISPD)和可编程逻辑(FPGA)方面情况稍好,在系统设计(CODES,ISSS,SBCCI)方面的研究最差。其次是设计测试(DATE)和设计自动化(DAC,ICCAD,EuroDAC)。
加上ASPDAC会议,中国论文占论文总数的1.32% 。
下面是这几个会议的中文简称,开始年份和论文录取率情况。
| 代号 |
中文简称 |
起始年 |
录取率 |
|
|
|
|
| ASPDAC |
亚太地区设计自动化 |
95 |
无 |
| CODES |
软硬件协同设计 |
94 |
30% |
| ISSS |
系统综合 |
94 |
35% |
| SBCCI |
集成电路与系统设计 |
97 |
34% |
| DATE |
设计与测试 |
98 |
21% |
| DAC |
设计自动化 |
64 |
30% |
| ICCAD |
辅助设计 |
92 |
26% |
| EuroDAC |
欧洲设计自动化 |
90 |
无 |
| ISLPED |
低功耗设计 |
95 |
32% |
| FPGA |
可编程逻辑 |
95 |
50% |
| ISPD |
物理设计 |
97 |
无 |
| GLVLSI |
大湖区集成电路 |
0 |
无 |
—–
二。体系结构
在体系结构方面,中国的论文发表情况比集成电路更差。在有33年历史的计算机体系结构权威会议ISCA中,中国的论文数是只有一篇,发表在1993年,作者是Q. S. Gao。 在微体系结构会议MICRO上,中国有9篇论文,占论文总数的1.48%,这些论文都是在1994年之前的,大部分是在85年到88年之间所做,95年之后一篇论文也没有。仅从论文数量看,最近十年中国在体系结构方面的学术研究不但没有前进,反而出现倒退。这种情况可能同中国当前的“芯片热”有关,许多研究人员转向了芯片的产品开发,离开了体系结构的学术研究。另一个原因是有能力在这些重要会议上发表论文的学者转到了国外,比如在MICRO上发表了4篇论文的清华学者Bogong Su先生,现在在美国William Paterson 大学工作,总共发表了34篇论文。
下面是ACM会议中几个主要的体系结构有关的会议中,中国论文的发表情况:
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| ASPLOS |
0 |
264 |
0.00% |
41 |
2 |
| CASES |
0 |
196 |
0.00% |
28 |
4 |
| ISCA |
0 |
992 |
0.00% |
116 |
11 |
| PACT |
0 |
67 |
0.00% |
3 |
0 |
| SPAA |
0 |
559 |
0.00% |
56 |
18 |
| SC |
1 |
1229 |
0.08% |
143 |
16 |
| ICS |
1 |
729 |
0.14% |
46 |
20 |
| MICRO |
9 |
608 |
1.48% |
68 |
6 |
|
|
|
|
|
|
| Total |
11 |
4644 |
0.24% |
501 |
77 |
—–
由于在ACM网站上没有ISCA02,ISCA03两个会议的作者单位,所以这两个会议的论文数和国家分布情况没有出现在上表。ISCA03中恰好有一个中国作者,所以,ISCA中国论文数应为1。
在这七个会议中,中国在四个会议中的论文数是空白。超级计算会议SC中唯一的一篇论文是北京基因组研究所的计算机应用论文,不能算作体系结构方面的论文;另一个超级计算会议ICS的论文是计算所编译组同INTEL和DELWARE大学合作的论文;MICRO方面的9篇论文是10年前的论文,ISCA唯一的论文在13年以前。换句话说,中国在最近十年内,在ACM体系结构方面的论文是空白。
当然,这并不等于说中国在体系结构学术研究方面是空白。在ACM之外,还有相当一批重要的体系结构会议,比如ISCIS,HPCA,ICCD,ASAP等等。但是中国在ACM会议中的情况,毕竟反映出中国在体系结构方面研究力量的薄弱。另外,下表显示,ACM这几个会议都是论文竞争相当激烈的会议,尤其ASPLOS,ISCA和MICRO这几个历史长久的会议,录取率仅在20%,五篇论文中只录取一篇。中国在这些会议中没有论文,至少说明中国缺乏高水平的研究工作。
下面是上述ACM体系结构会议的中文简称以及论文录取率等信息:
| 代号 |
中文简称 |
起始年 |
录取率 |
| ASPLOS |
对语言和操作系统的体系结构支持 |
73 |
20% |
| CASES |
嵌入式系统编译,体系结构和综合 |
0 |
25% |
| ISCA |
体系结构 |
73 |
20% |
| PACT |
并行体系结构及编译技术 |
93 |
无 |
| SPAA |
并行算法和体系结构 |
89 |
37% |
| SC |
超级计算 |
88 |
24% |
| ICS |
超级计算 |
89 |
30% |
| MICRO |
微体系结构 |
73 |
20% |
—–
三。软件工程,数据库和人机界面。
在这个栏目下面,我们把软件工程,数据库,交互式系统,文档,超文本的会议都放在一起。这种分类可能会有争议。但是从我们提供的数据中不难分析出各专门领域的情况。下面是归在此类的所有会议:
| 代号 |
中文简称 |
起始年 |
录取率 |
| ISSTA |
软件测试与分析 |
73 |
20% |
| SIGSOFT |
软件工程基础 |
82 |
25% |
| ICSE |
软件工程 |
76 |
17% |
| PODS |
数据库系统原理 |
82 |
22% |
| SIGMOD |
数据管理 |
74 |
17% |
| VLDB |
超大规模数据库 |
82 |
无 |
| KDD |
数据中知识挖掘 |
99 |
14% |
| SIGIR |
信息检索 |
71 |
20% |
| SIGDOC |
计算机文档 |
82 |
50% |
| UIST |
用户界面软件与技术 |
88 |
21% |
| ICIS |
信息系统 |
89 |
无 |
| IUI |
智能用户界面 |
89 |
30% |
| CHI |
计算机系统中人的因素 |
77 |
20% |
| DIS |
交互式系统设计 |
95 |
无 |
| HT |
超文本 |
87 |
40% |
| SV |
软件可视性 |
73 |
20% |
| SSR |
软件可重用性 |
95 |
43% |
| SCM |
软件配置管理(workshop) |
89 |
无 |
| WOSP |
软件与性能(workshop) |
98 |
55% |
—–
在这些会议中ISSTA,SIGSOFT,ICSE是软件工程方面的主干会议,论文录取率在20%左右。在这三个会议中,中国的论文总数是6篇,占全部论文数的0.21%。其中SIGSOFT的三篇文章全部是北大的。ICSE中也有一篇北大文章。
SIGMOD和PODS是数据库方面的主要会议。前者录取率为35%,其中有9篇中国论文;后者录取率只有18%,该会议上唯一的一篇中国论文是重庆大学Ke Wang所写的论文,但时间是17年前。知识挖掘会议的录取率只有14%,但上面有9篇中国论文,数量同发达国家平均数接近。
SIGIR信息检索会议是这批会议中中国论文最多的一个会议,中国共有28篇论文,占总数2%多。在这批论文中,微软占了12篇,其次是清华大学5篇,其中有2篇是同微软合作成果。
在用户界面会议方面,中国在IUI会上的论文占论文总数0.84%,这个比例在各个会议中占第二名。IUI的5篇中国论文中有3篇出自北京中科院。
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| DIS |
0 |
237 |
0.00% |
20 |
3 |
| ISSTA |
0 |
205 |
0.00% |
18 |
3 |
| SCM |
0 |
55 |
0.00% |
4 |
1 |
| SIGDOC |
0 |
607 |
0.00% |
35 |
13 |
| SSR |
0 |
105 |
0.00% |
8 |
3 |
| VLDB |
0 |
146 |
0.00% |
15 |
3 |
| CHI |
6 |
4471 |
0.13% |
595 |
97 |
| PODS |
1 |
671 |
0.15% |
75 |
18 |
| ICSE |
3 |
1918 |
0.16% |
129 |
70 |
| UIST |
1 |
472 |
0.21% |
80 |
15 |
| ICIS |
1 |
432 |
0.23% |
0 |
5 |
| HT |
2 |
621 |
0.32% |
57 |
17 |
| SIGSOFT |
3 |
675 |
0.44% |
50 |
21 |
| SIGMOD |
8 |
1790 |
0.45% |
223 |
35 |
| WOSP |
1 |
164 |
0.61% |
10 |
8 |
| IUI |
5 |
595 |
0.84% |
60 |
21 |
| KDD |
9 |
650 |
1.38% |
66 |
12 |
| SIGIR |
28 |
1352 |
2.07% |
50 |
36 |
|
|
|
|
|
|
| Total |
68 |
15166 |
0.45% |
1495 |
381 |
—–
在这18个会议中,中国在6个会议中尚处空白状态。另外,CHI的6篇文章有5篇是微软的,另外1篇来自IBM中国研究所。PODS上的文章是17年前的。所以,在最近17年中,中国实际上在8个软件会议中是空白。其他几个会议,除SIGIR 以外,论文数量占会议论文总数的百分之一以下。在软件工程这个领域中,中国论文数是六个发达国家平均数的1/6,是美国加州的1/23。
四。操作系统,网络通讯和分布式计算。
在这个栏目下面我们很勉强地把操作系统会议SOSP,通讯会议COMM和分布是计算会议PODC放在一起。这几个领域不象其他行业那样有一大批相关的ACM会议。然而这几个会议历史都很长,率取率也比较低。SOSP会议是一个有将近40年的操作系统会议,在此会议上中国论文一篇也没有。分布式计算会议PODC上也没有中国的论文。COMM上有两篇中国论文,一篇来自国防科大,另一篇来自南京通讯工程学院。国防科大的文章发表在2003年,当年的录取率仅为11%,几乎是10文章中挑选1篇;南京通讯工程学院Guo Chuanxiong的文章发表在2001年,当时的录取率为9%。
| 代号 |
中文简称 |
起始年 |
录取率 |
| SOSP |
操作系统原理 |
67 |
18% |
| COMM |
计算机通讯的应用技术和体系结构 |
69 |
11% |
| PODC |
分布式计算原理 |
82 |
30% |
—–
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| PODC |
0 |
849 |
0.00% |
75 |
13 |
| SOSP |
0 |
331 |
0.00% |
54 |
1 |
| COMM |
2 |
817 |
0.24% |
94 |
14 |
|
|
|
|
|
|
| Total |
2 |
1997 |
0.10% |
223 |
28 |
—–
SOSP上不但没有大陆的论文,也没有台湾和香港的论文。PODC上有两篇台湾论文,一篇香港论文。
五。图形学与多媒体
在虚拟实体会议VRST和多媒体会议MM上,中国的情况比较好,非常罕见的能够占到论文总数的4%–6%之间。VRST上的论文都是中国自己独立完成的,MM上虽然有32篇微软的论文,但中国自己的论文还是占了大多数。图形学本身的论文情况接近空白。SCG上唯一的一篇论文是明尼苏达大学同北京中科院合写的文章,SIGGRAPH 上有8篇文章出自微软,1篇出自IBM,另一篇是复旦与美国DAVIS大学合作。SIGGRAPH论文收集到02年以前,之后的会议还没有进入ACM网站。
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| PVG |
0 |
45 |
0.00% |
5 |
1 |
| SCCG |
0 |
114 |
0.00% |
1 |
2 |
| SI3D |
0 |
220 |
0.00% |
13 |
1 |
| SCG |
1 |
907 |
0.11% |
72 |
28 |
| SIGGRAPH |
10 |
2165 |
0.46% |
190 |
44 |
| VRST |
12 |
281 |
4.27% |
13 |
10 |
| MM |
102 |
1727 |
5.91% |
174 |
58 |
|
|
|
|
|
|
| Total |
125 |
5459 |
2.29% |
468 |
144 |
—–
| 代号 |
中文简称 |
起始年 |
录取率 |
| PVG |
并行和大规模数据可视性 |
99 |
无 |
| SCCG |
图形学 |
73 |
无 |
| SI3D |
交互式3D图像 |
87 |
27% |
| SCG |
计算几何 |
85 |
35% |
| SIGGRAPH |
图像与交互式技术 |
74 |
无 |
| MM |
多媒体 |
93 |
48% |
| VRST |
虚实体软件与技术 |
97 |
36% |
—–
六。程序语言。
ACM集中了程序设计语言的许多重要会议,在这些会议的有关信息及中国论文发表情况见下面的两个表。
| 代号 |
中文简称 |
起始年 |
录取率 |
|
|
|
|
| POPL |
程序语言原理 |
73 |
20% |
| OOPSLA |
面向对象程序语言 |
86 |
19% |
| PLDI |
程序语言设计与实现 |
87 |
22% |
| PPoPP |
并行程序设计原理 |
90 |
30% |
| PPDP |
说明式语言与实现 |
0 |
46% |
| ICFP |
函数式语言 |
96 |
30% |
| CGO |
代码生成与优化 |
3 |
32% |
| PEPM |
部分求值和基于语义的程序变换 |
91 |
50% |
| LCTES |
嵌入式系统的语言,编译和工具 |
95 |
26% |
—–
| 会议代号 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| LCTES |
0 |
168 |
0.00% |
13 |
3 |
| POPL |
0 |
860 |
0.00% |
58 |
16 |
| PPDP |
0 |
142 |
0.00% |
3 |
8 |
| OOPSLA |
1 |
1205 |
0.08% |
88 |
24 |
| ICFP |
1 |
310 |
0.32% |
5 |
9 |
| PLDI |
2 |
495 |
0.40% |
65 |
6 |
| PEPM |
1 |
166 |
0.60% |
2 |
6 |
| PPoPP |
2 |
188 |
1.06% |
24 |
2 |
| CGO |
1 |
89 |
1.12% |
4 |
0 |
|
|
|
|
|
|
| Total |
8 |
3623 |
0.22% |
262 |
74 |
—–
POPL是程序语言理论方面最高水平的会议,在该会33年历史上,全中国没有一篇论文(包括中国大陆,香港和台湾)。PLDI是语言实现方面最有名望的会议,PLDI上仅有的两篇论文来自INTEL中国软件中心,作者是普林斯顿大学博士毕业。前面提到,中国在该会上另有一篇非第一作者的论文。面向对象语言OOPSLA,函数语言ICFP,语言设计以及嵌入式系统语言和编译LCTES均属于语言方面有相当规模的高水平会议。ICFP和OOPSLA两个会议上各有一篇中国大陆论文, ICFP上的论文作者是软件所Chen Haiming。OOPSLA上唯一的中国论文作者是Yingliang Zhao,他署名的单位是西安交大和加拿大Regina大学。LCTES则没有中国大陆的论文。PPDP是一个比较新的语言会议,没有中国论文。并行程序设计PPoPP是一个跨领域的会议,其中的一部分内容是并行语言。该会上有两篇中国论文,一篇来自INTEL上海软件中心,另一篇是中国科技大学与INTEL编译组合写。PEPM和CGO是语言领域内比较专门的两个方向,这两个会各有一篇中国论文。PEPM上的论文是一个在武汉大学(学习/工作?)的俄罗斯人的论文,CGO上的论文来自INTEL软件中心。
总体而言,在8篇论文中,INTEL占了5篇(包括与科大合作的一篇),外国人一篇,在中加两个单位同时工作的学者一篇。能够完全算做中国独立完成的论文只有软件所Chen Haiming在ICFP上的论文。
即使按8篇论文计算,中国在语言方面的论文也只有6个发达国家平均值的1/9,美国加州论文数的1/32。如果按1篇论文计算,中国同发达国家平均值的差距是1:72,同美国加州的差距是1:262。
总体分析
以上是ACM会议里几个比较大的研究领域中中国论文的分布情况。其他研究领域不再一一分析。附录中列出了每个会议的情况。
在本次统计的173个ACM会议(包括会议集)中,中国大陆第一作者的论文总共有713篇,占论文总数83227的0.83%。相比之下,六个发达国家的平均数为1926篇,美国加州的论文数为7481篇。在713篇中国论文中,大约有90篇是外国研究单位的论文,其中微软73篇,INTEL有9篇,IBM有6篇,此外还有一部分是中外合作论文,完全由中国独立完成的论文估计在600篇左右。这个统计过程可能有一些误差,但是基本上能够反映中国在ACM上论文发表情况。
今年,中国已经超过英国、法国成为世界第四大经济体。本文中特别把中国的论文发表情况同除美国之外的六个发达国家进行比较。统计显示,中国独立发表的论文数不到这些发达国家平均水平的1/3,中国的ACM论文发表情况同中国的经济地位不相称。
中国大陆在论文总数上高于亚洲四小龙平均水平,但是在不少重要领域里严重落后于四小龙。前面提到DAC会议论文仅为台湾的1/6;此外在一个与机器人有关的AGENTS会议上,中国大陆的论文只有5篇,而香港的论文有16篇;CIKM会上中国发表论文16篇,新加坡发表41篇。
根据2005年成都文献情报中心郑颖[3]等人的研究,2003年中国被SCI收录的论文数已达到世界SCI论文总数的4.48%。但是在ACM会议中,中国论文(包括在中国的外国公司)仅占0.83%,远远落后于中国的SCI论文平均发表水平。在中国论文中,有371篇集中在AICPS,ASPDAC和MM三个会议中,剩下的论文只有342篇。这些论文占剩余的170个会议的75757篇论文中的0.45%,仅为SCI中国论文收录率的十分之一。这种情况表明,虽然中国的论文总数相当可观,但是较高水平的计算机科学研究工作依然稀少。
中国科学院自然科学史研究所张利华[2]和成都文献情报中心郑颖[3]等人的研究显示,自90年以来中国的SCI论文发表量以每年两位数的百分比增长,近年的增长速度达到每年20%。但是在ACM的核心专业会议中却很难看到这种增长,一些专业甚至出现倒退的迹象。比如微体系结构的MICRO会议,在10多年前尚有9篇论文,而近10年内一篇也没有。
最近十年里,一批核心领域的主干会议上没有一篇完全由中国独立完成的论文。这些会议是:
- 体系结构方面的ISCA和MICRO会议
- 程序语言方面的POPL会议
- 操作系统方面的SOSP会议
- 数据库方面的PODS会议
MICRO会议和PODS在十年前有中国论文。ISCA在13年前有一篇。POPL,SOSP从来没有中国论文。集成电路方面的DAC会议有9篇论文。软件工程的两个重要会议SIGSOFT,ISCE上共有6篇中国独立论文。
并非所有重要会议都在ACM之中,但ACM在集成电路,体系结构,软件工程已及程序语言方面集中的高水平会议比较多。在这几个大的方向上,中国论文发表的总体情况如下:
| 会议类别 |
会议数量 |
中国
论文数 |
论文总数 |
中国论文
占总数百分比 |
美国加州 |
六个发达
国家平均数 |
| 集成电路 |
12 |
143 |
10817 |
1.32% |
1792 |
287 |
| 软件工程 |
18 |
68 |
15166 |
0.45% |
1495 |
381 |
| 体系结构 |
8 |
12 |
4644 |
0.24% |
501 |
77 |
| 程序语言 |
9 |
8 |
3623 |
0.22% |
262 |
74 |
—–
集成电路方面有100多篇论文在亚太地区的ASPDAC会议上。体系结构的8个会议中,中国共11篇文章;在近十年中,在体系结构方面文章数实际上是零。在程序语言方向的9个会议中,中国共8篇文章,完全由中国独立完成的文章仅一篇。总体而言,中国在集成电路和软件工程两大方向上情况好,体系结构和程序语言方向相当弱。
ACM在其他几个领域中也有一批相当重要的会议,但是并没有象上述几个大方向那样构成会议群。
这项研究工作只是一个初步的分析,其中对大方向的划分,会议重要性评价等等难免有误。更准确的分析需要专家评定各领域中会议的重要性程度,并且全面考察包括ACM在内的各个计算机会议中论文发表情况。在此分析的重点是计算机核心领域的会议,计算机应用领域众多,对应用领域的分析不是本次统计工作的重点。
ACM之外还有许多计算机科学高水平会议,比如体系结构方面的HPCA,HCS;集成电路方面的ISSCC,VLSI;正确性验证方面的CHARME,CAV;理论方面的LICS,TYPES;数据库方面的ICDT;语言方面的ECOOP;人工智能方面的IJCAI,AAAI;自动推理方面的CADE等等,参加[8,9,10]。[10]中共列出一千多个大大小小的计算机会议。全面统计计算机高水平会议的工作是很重要的,但是对计算机会议水平高低的评价尚无一个统一的标准,[8,9,10]中提供了参考的评分,但从专家角度看依然问题很多。本文专注于ACM会议,这样多少能够对中外计算机科学差距提供一个参考,同时使会议的数量限制在一个容易分析的范围内,此外ACM会议的录取率也为会议评价提供一个较为客观的数据。计算机科学顶级会议的全面分析是未来需要进行的一项工作。
几点初步意见
一。科研考核需要参考论文录取率。近年来使用SCI论文数的考核方式明显提高了中国的论文数量。但是不同会议的录取率情况相差很大。即使在ACM会议之间,录取率也很不相同,MM会议2篇投稿取1篇,ISCA会议5篇投稿取1篇,把这些不同录取率的会议论文平等看待显然不公平。如果只考核论文数量,会使科研人员弃难求易,专注于容易发表论文的领域,从而使许多难以发表论文的重要研究方向成为空白。科研政策应该对录取率低的会议论文,以及填补国家空白的会议论文给予更多的鼓励。
二。学术研究需要全面发展。中国是发展中国家,经费有限。发展战略上一直有集中发展还是全面发展之争。两弹一星是集中资源发展的成功范例,大跃进则是过分集中力量于钢铁粮食而导致经济全面倒退的例子。这次统计中发现,多达一半以上的中国论文集中在三个会议中,其余的一半分布在另外170个会议里,发展情况极不平衡。此外,在超过一半以上的ACM会议中,中国的论文是零。以往的科研政策把研究经费大量集中于少数几个重点单位,但是计算机的分支多如牛毛,几个单位的力量不可能覆盖所有研究分支。国家对龙芯等重点项目的支持肯定是正确的,但是与此同时也要兼顾其他大学和研究单位的发展。全面发展的一个重要理由是为了商业化。一个单项成果无论怎样优秀,很难独立成为商品。单项科研成果通常被技术全面的大公司所吸收,然后转化成生产力。在目前情况下,很多研究工作对中国没有用处,因为没有配套的技术使之转换成商品。所以从商业化角度看,科研的全面发