Cretaceous

16세기의 외과

카테고리 없음 2013. 10. 27. 14:59

"온갖 종류의 지뢰와 대항 갱도, 불붙은 기름을 채운 단지, 도화선 불화살, 창, 석궁, 불덩어리, 불붙은 장작 다발, 폭발성 전쟁 무기와 발명품들은 모두 비열한 공장과 잔혹한 창고에서 만들어진 것이다. 연료와 폭발물로 채워진 무기를 적군이나 그들의 텐트 위로 던지면 금새 불이 붙는다. 그것들은 분명 가장 유감스럽고 치명적인 발명품이다. 이로 인해 우리는 지뢰와 함께 폭파된 수많은 사람들을 자주 목격하곤 한다. 또 전투가 한창일 때에는 이 화염 무기들의 제물이 되어 잔혹하게 몸 위로 번지고 있는 격렬하고 파괴적인 불을 끌 물도 없는 상태에서 제복을 입은 채 불에 탄 가장 강인한 군인들을 볼 수 있을 것이다. 마치 인간을 파멸시키기에는 무기와 총, 포화가 부족하기라도 한 것처럼, 우리는 적들을 더욱 신속하게 강타하기 위해 무기에 날개를 달아 우리의 파멸을 앞당겼고, 죽음의 산에게 날개를 달아 인간을 더욱 신속하게 억압하게 했다. 세상에 있는 모든 것은 신이 인간을 보호하기 위해 만든 것인데 말이다. 고대인들이 사용했던 각종 전쟁 무기들은 정말이지, 내가 지금 묘사하고 있는 무기들과 비교하면 어린아이 놀이나 장난으로밖에 보이지 않는다. 이런 근대 발명품들은 모양에서나 잔인함, 효과에 있어서 인간이 상상할 수 있는 모든 잔혹한 무기들을 능가한다.

세상에서 천둥과 번개보다 더 무시무시하고 두려운 것은 무엇인가? 천둥의 해악은 이들 지옥의 무기의 잔인함에 비할 바가 아니다. 이것은 그것들이 미치는 영향력을 비교하면 알 수 있다. 천둥과 번개는 일반적으로 단 한 차례 내리치며 수많은 사람 가운데 한 사람만을 공격한다. 그러나 대형 대포는 포탄 하나로도 많은 사람들을 공격해서 죽일 수 있다. 자연 현상인 번개는 우연히 키가 큰 참나무, 산꼭대기, 때로는 높은 건물에 한 차례 떨어지지, 사람이 맞는 경우는 거의 없다. 그러나 인간의 악의와 지시로 만들어진 이 몹쓸 무기는 오직 사람만을 공격하고, 사람만을 목표로 삼아 저격한다.

전령으로서 앞서 도착한 천둥은 그 소리로 곧 다가올 폭풍을 예고한다. 그러나 지옥의 무기는, 이것이 가장 못된 짓인데, 공격과 동시에 포효하고 또 포효하는 동시에 공격하며, 한꺼번에 그리고 동시에 가슴에는 치명적인 탄환을, 귀에는 끔찍한 소음을 보낸다. 따라서 우리 모두가 그렇게 치명적인 무기를 만든 사람을 저주하는 것도 당연하다. 반면 글이나 간곡한 권고로 왕이 그 무기들을 사용하려는 것을 만류하거나 무기들로 인한 상처를 적절히 치료하려고 노력한 사람들은 높이 찬양해야 한다."

소구경 화약 무기의 보급에 따른 전쟁 양상 변화에 대한, 프랑스의 외과의 앙브루아즈 파레 Ambroise Paré 의 글

Posted by 김구공룡

[Guardian: 왜 최고 소득 구간 과세를 증가해야 하는가]

카테고리 없음 2013. 10. 25. 15:41

미국에서는 상위 1%의 세전 소득이 차지하는 비중이 1970년에는 10%에서 현재는 두 배로 증가한 20%에 달한다. 이는 영어권 국가에서 공통적으로 나타나는 현상인데, 흔히 알려진 믿음과는 달리 세계화와 기술만을 탓할 게 아니다. 이를테면 유럽 대륙 본토라던지 일본과 같은 국가들에서는 부의 집중이 이토록 심하지 않기 때문이다.

동시에, 1970년대 이후로 최고 세율은 꾸준히 낮아져 왔다. 특히 영어권 국가인 미국과 영국에서 최고 세율은 70%수준이었는데 대처와 레이건 정부를 거치면서 10년만에 40% 수준으로 떨어졌다.

그리고 OECD 국가들이 큰 재정적자와 부채에 시달리게 되면서, 최고 소득 구간에 더 과세할 것인가를 묻게 되지 않을 수가 없게 되었다. 현재 최고 소득 구간은 가장 큰 잠재 과세근원이기도 하다.

예컨대 상위 1% 구간에 대한 현재 미국의 세율을 현재의 22.5%에서 두 배인 45%로 증대할 경우 연간 세수를 GDP의 2.7%까지 확보할 수 있으며 이는 부시가 깎아준 세금을 거의 채울 수 있는 규모이다. 물론 이런 단순한 계산은 정확할 수 없다. 세율의 급격한 인상은 부유한 과세 대상자들의 세전 소득에 여러 영향을 줄 수 있기 때문이다. 최근의 연구들은 1970년대 이후 최고 소득과 세율에 대한 국제적인 추이를 이용해서 이 문제를 분석한다.

1975~79년 기간과 2004~08년 기간에서 OECD 18개국의 예를 분석하자 최고 세율의 감소와 상위 1%의 세전 소득 비중 사이에 강한 상관관계가 발견되었다. 미국은 최고 세율의 35%에로의 저감과 동시에 상위 1% 구간의 세전 소득 점유가 큰 폭으로 상승하는 현상을 경험했다. 반대로 프랑스와 독일은 최고 세율에 큰 변화가 없었고 마찬가지로 상위 1%의 소득 비율에도 큰 변화가 없었다.

그래서 최고 세율의 진화는 세전 소득 집중 현상을 예측할 수 있는 좋은 도구이기도 하다. 일반적으로 최고 세율에 반응하는 세전 소득의 동향에는 3가지 서로 다른 시나리오와 정책적 함의가 있다.

첫째, 공급 측면에서, 높은 최고 세율은 일을 하거나 비즈니스를 창출하고자 하는 의욕을 감소시킬 수 있다. 이 시나리오에서 최고 세율을 저감은 경제 활동을 촉진시킬 수 있다. 만약 최고 세율과 최고 소득 지분율의 상관관계는 이러한 공급 측면에 기인한 것이다. 이 모델에 따를 경우 매출을 극대화시킬 수 있는 최적의 최고 세율은 57% 가량으로 추정되는데 이는 미국에게는 아직 증세를 위한 여력이 남아 있고 유럽은 이미 상한에 많이 도달했다는 것을 의미하기도 한다.

둘째는 높은 세율은 높은 세금회피를 유발한다는 주장이다. 최고 세율이 높아지면 세금을 회피할 유인이 높아지고 이는 경제에도 별로 생산적인 방향이 아니다. 정책적으로는 일단 세제의 빈틈을 메우고 조세회피기회를 없애는 것이 먼저이다. 이를 위해서 정교한 국제 협력과 공조가 요구된다. 그리고 조세 근거를 넓히는 것도 조세회피 기회를 줄이는 것이 될 것이며, 공급 측면 이외의 문제를 줄이는 길이기도 하다.

세 번째 시나리오에서 표준 경제 모델은 임금이 생산성에 반영되는 것을 전제로 하면서, 최고 세율 구간의 관리자들이 복잡한 조직의 경제 활동과 생산성에 미치는 실제적 기여를 측정하기 어렵다는 점과 함께 회의적인 입장을 취한다. 최상위 소득자는 경영진 회의 등에 영향을 주어 다양한 방법을 자신의 소득을 보상하거나 하는 시도를 할 것이다.

최고 세율이 낮은 경우, 자연스럽게 "지대추구" 에 대한 인센티브가 강해지게 된다. 이 시나리오에서는 최고 세율 인하는 최고 소득 점유율을 여전히 늘릴 수 있지만, 상위 1 % 의 소득 증가는 나머지 99 %의 지출에 덤벼들게 된다. 즉, 최고 세율 인하는 전체 경제 규모의 성장이 아니라 최고 소득 구간의 지대 추구만을 자극하게 된다는 것이다. 공급 측면에서의 시나리오와는 달리.

이 시나리오들을 각각 평가하기 위해 최고 세율 인하가 경제 성장에 미칠 영향을 분석해야 한다. 1970년부터의 데이터가 보여주는 바에 따르면 최고 세율 인하가 실질 인당 GDP 상승에 주는 상관관계는 발견되지 않았다. 최고 세율을 크게 인하한 미국과 영국은 그렇지 않은 독일이나 덴마크에 비교해서 별로 빠르게 성장하고 있지 않다.

이 결과가 말해주는 것은 최고 세율에 대한 세전 소득의 대응이 생산성향상보다는 지대추구에 기인한 것일지도 모른다는 점이다.

물론, 국가간 비교는 엄밀한 것이 아니며 정확한 결과는 국가별 특성이나 시기에 따라 달라지게 마련이다. 그러나 근본적으로 부유한 국가들은 세금 정책에 대한 큰 변화에도 불구하고 지난 30여 년 간 비슷하게 성장해왔다는 점이다. 최고 세율 구간의 지대추구성향과 생산성증가 대응을 고려하여 계산한 바에 따르면 최고소득구간의 최대 잠재 징세 여력은 공급주의 모델에서 제안하는 57%를 넘는 87%에 달한다.

1970년대까지는 정책 입안자와 공공 여론은 – 그것이 옳건 그르건 간에 – 사다리 최고 구간의 소득은 생산성 증가보다는 주로 탐욕에 의한 것이라고 간주해왔던 것으로 보인다. 이것이 영국과 미국의 정부가 한계세율을 80% 수준까지 설정할 수 있었던 원인일 것이다. 그리고 레이건과 대처의 혁명은 그러한 높은 한계 세율을 '생각할 수 없는 수준'으로 변화시키는 데 성공했다.

그리고 1970년 이후 수십 년간 우리는 평범한 성장을 경험했다. 그리고 금융 분야의 과잉으로 인한 대공황을 거치면서 레이건과 대처 혁명에 대한 재평가가 진행중이다.

영국에서 최고 소득 과다를 억제하는 차원에서도 최고 구간의 세율은 40%에서 50%로 상승했다. 미국에서는 월가 점령 시위와 "우리는 99%" 슬로건이 최고 1%구간이 나머지 99%의 지출을 받고 있다는 인식을 반영하고 있다.

마지막으로, 최고 세율의 미래는 최고 수준의 소득이 과연 생산성을 반영하느냐 아니면 그냥 지대추구소득에 근거하느냐에 대한 공공 인식에 달려 있다. 소득집중이 심화되면서 최고 소득자들은 사회적 믿음과 여론 및 정책에 영향력을 끼칠 만한 싱크탱크와 미디어와 로비 파워를 더 많이 보유하게 되었으며, 이로 인해 소득 불평등과 인식 그리고 정책에 대한 역 인과관계를 형성해왔다.

이제 경제학자들은, "80%의 최고 세율'에 대해서, 다시 생각해볼 때다.

http://www.theguardian.com/commentisfree/2013/oct/24/1percent-pay-tax-rate-80percent

Posted by 김구공룡

[Economist] Trouble at the lab

카테고리 없음 2013. 10. 24. 00:55

“열차의 잔해가 나타나고 있다” 저명한 심리학자인 Daniel Kahneman는 작년 공개 편지에서 경고한다. 연구에 대한 불길한 예감은 이른바 ‘priming’ 이라고 하는 현상이다. Priming에 대한 연구는, 결정이 선택 끝의 명백히 무관한 동작이나 사건들로 인해 영향받는 현상을 말한다. 지난 10년간 심리학에서 가장 주목받는 위치를 차지했고 연구소를 나와 대중들에게까지 영향을 미쳤다.

Kahneman 박사를 비롯한 많은 동료들이 이런 발화 연구의 기초가 엉성한 점에 대해 걱정하고 있다. 지난 몇 년간 다양한 연구자들이 널리 인용된 priming 실험을 재연하려는 시도를 해 왔다. 그러나 이들 시도들은 대부분 실패하였다. 4월 PLoS ONE 저널에는 9개의 독립된 실험이 시험을 보기 전에 교수를 떠올리는 것이 풋볼 훌리건들에 대해서 생각하는 것보다 높은 점수를 받게 한다는 1998년의 유명한 이론이 재연되지 않는다고 보고하였다.

동일한 실험은 누가 수행하건 항상 동일한 결과를 얻는다는 사상은 과학이 객관적 진실을 확보하는 시금석이다. 체계적 재연이 동일한 결과로 이어지지 않는다면 원래 연구이나 재연 둘 중 하나가 결함이 있는 것이다. 어느 쪽이건 무언가는 엉망이 된다.

To err is all too common

Priming 효과를 둘러싼 논쟁을 심리학 분야의 사소한 사건으로 무시해버리고픈 바램도 작은 것이 아니지만 이러한 재연불가성은 훨씬 넓게 퍼져 있다. 몇 년 전 미국의 제약 회사 Amgen 이 그간 암 연구의 랜드마크로 꼽았던 53개의 연구 결과를 최초 연구자와 협력하여 재연해보았다. 작년 그들이 Nature 지에 발표한 바에 따르면 그것들 중 단 6가지만이 원래 결과를 그대로 도출할 수 있었다. 한달 전 독일의 거대 제약회사 Bayer HealthCare 의 Florian Prinz와 그의 동료들은 67개의 중대한 연구 중 1/4만이 처음 보고된 대로의 결과를 내놓았다는 결과를 Nature Reviews Drug Discovery에 출간하였다.

부유한 국가들의 모임인 OECD 정부는 2012년 590억 달러를 생의학 연구에 투자했는데 이는 2000년의 거의 두 배에 달하는 수치다. 정부 기반의 기초 과학 연구는 사기업의 신약 개발의 기초가 되는 것이 그 한 이유다. 만약 기업들이 학계의 연구에 의존하지 않는다면 이러한 추론은 무너지게 된다. 국립건강원 America’s National Institutes of Health (NIH) 이 절망적으로 낸 통계에 따르면 연구자들은 적어도 3/4 가량의 출판된 생의학적 연구 결과를 재연하지 못하고 있다. 연구개발의 공공프로세스가 실패하고 있는 것이다.

학계의 과학자들은 문제가 있다는 사실을 선뜻 인정하곤 하지만, 그들도 이러한 문제들을 시간이 지나 다른 과학자들이 앞으로 밝혀줄 것이라는 사상을 고집한다. 수많은 의심스러운 결과들이, 나중에 교정되거나 철회되는 결과보다 훨씬 더 많이 출판되고 있다는 사실은 자정 능력이 지나치게 과시된 것이 아닌가 하는 의문을 불러일으킨다.

다양한 요인들이 문제를 유발한다. 통계 실수는 흔하고, 저널이 출간되기 전에 논문을 검증하는 Peer 리뷰어는 생각보다 실수를 잘 잡아내지 못한다. 직업적 압력, 경쟁 및 현명해지기보다 신속하고 더 많이 출간하고자 하는 야망 등이다 많은 논문을 쏟아내야 하는 커리어 구조도 이러한 문제를 악화시키는 요인이다. 버지니아 대학교의 심리학자 Brian Nosek는 제자들의 끈질긴 오류들에 대해서 “이런 상황이 치루어야 하는 비용이 없다” 라고 말한다.

첫번째는, 좋아하기 힘든, 통계다. Type I 오류는 참이 아닌 것을 참이라고 생각하는 것이다. Type II 오류는 참인 것을 거짓이라고 판단하는 것이다. 특정 가설을 검정할 때 과학자들은 통계적 체크를 거친다. 만약 이러한 false positive 결론이 나올 확률이 5% 미만이라면 가설이 ‘통계적으로 의미있는’ 사실임이 유력하다.

Understanding insignificance

2005년 스탠포드대의 전염병학자 John Ioannidis는 통계적 로직을 통해 20회가 false positive 결과에 지나치게 낙관적이라는 연구를 공개함으로써. 논란을 일으켰다. 대신 그는 ‘대부분의 출간된 연구 결과는 아마도 잘못되었을 것이다’ 라고 주장했다. 그가 말했던 대로 4년마다 열리는 국제 Peer Review 및 국제 생의학 학회에서 그 문제는 사라지지 않았다.

Dr Ioannidis는 과학자들의 통계의 중요성에 대한 관례적인 접근이 세 가지 – 연구의 통계적 검증력 (2종 오류를 피할 가능성의 수단, 노이즈 속에서 진짜 신호를 놓치는 위음성), 가설이 검증되지 않을 가능성, 그리고 새로운 것을 발견해야 한다는 강박이 주는 편견 - 를 무시하곤 한다는 냉엄한 결론에 도달했다.

통계적 검증력이 있는 연구는 데이터의 효과가 작을 때에도 무언가를 건져낼 수 있게 해 준다. 일반적으로 큰 연구 – 여러 차례 실험되고 많은 환자를 고용하는 등 – 에서는 더욱 강력해진다. 0.8 지수이란 10개의 참 가설이 검증되었을 때 단지 두 가지만 배제되곤 한다는 것인데 그 이유는 그 효과가 데이터에서 골라지지 않기 때문이다. 이것은 경험적으로 많은 연구에서 받아들여지는 현상인데 그러나 이 벤치마크는 비용이 많이 드는 큰 연구에서는 항상 맞지는 않다. Ioannidis 박사가 4월에 동료들과 수행한 조사에 따르면 일반적인 신경과학 연구에서 통계적 검증력은 실패율 0.21인데, 암스테르담 대학교의 Marjan Bakker 연구진이 Perspectives on Psychological Science에 제출한 결과에서는 평균 지수가 0.35에 달했다.

발생하지 않을 가능성 또한 결과가 얼마나 놀라울 수 있을지에 대한 지표이다. 대체로 과학자들은 놀라운 결과를 원하곤 하는데 때문에 그들은 일반적으로 있을 법하지 않을 가설들에 대해서 더 도전하는 경향이 있다. Ioannidis 박사는 그의 전공 분야인 역학(疫學)에서 연구자들은 가설 10개 중 1개 정도가 참이길 기대할 수 있다. 유전자와 단백질로부터 얻어진 광대한 데이터들을 연결하는 유전체학 같은 탐사 체계에서는 천 개의 가설 중 하나만 맞아도 다행이다.

이로 인해, 1천 개의 가설이 시험되어 단 100 개가 참임이 밝혀진다면 0.8의 신뢰 지수에 따르면 진짜 참은 80개가 되고 20개는 위음성 (가짜 부정) 이 된다. 900개 가설이 거짓으로 나타났다면 이중 5%인 45개는 1종 오류에 의해 참이다. 통계 검증력 지수에 의해 참으로 나타난 125개의 결과를 얻는데, 1/3은 겉으로만 그럴싸한 것이다. 만약 통계적 검증력이 0.4로 떨어지게 된다면 (현실적으로 대부분의 연구에서 그러하곤 하지만) 45개의 위양성이 발생하고 결국 참 진실은 40개가 남게 된다. 참 결과의 절반 이상이 잘못된 것이다.

부정적인 결과들은 훨씬 더 신뢰할 만 하다. 신뢰 지수가 0.8인 1000 개의 가설 시험에서 875가 부정적인 결과들이고 이중 20개만 오류이다. 정확도는 97%가 넘는다. 그러나 연구자들과 저널은 부정적인 결과에는 흥미를 보이지 않는다. 그들은 긍정을 강조하기 좋아하기 때문에 실수를 저지르기 쉽게 된다. 부정적 결과는 출간된 과학 문헌 중 학제에 따라 10~30%에 불과하다. 이 편향은 갈수록 심해지고 있는데, 에딘버러 대학의 Daniele Fanelli가 1990년부터 2007년의 기간에 걸쳐 조사한 바에 따르면 4600개의 논문 결과 중 부정적인 결과의 비율은 30%에서 14%로 하락했다. 영국 왕립 화학회장 Lesley Yellowlees는 100개 이상의 논문을 출판했는데 이중 부정적 결과를 내고 있는 건 1개뿐이었다.

통계학자들은 이 문제들을 어떻게 다루어야 할 지 알고 있지만, 대부분의 과학자들은 통계학자가 아니다. 컬럼비아의 통계학자 Victoria Stodden은 여러 해 동안 강연과 교육을 해 왔지만 과학자들의 통계에 대한 이해도는 데이터를 다루기 위한 복잡한 수학 기술의 발전에 미치지 못하고 있다고 말한다. 어떤 과학자들은 편하다는 이유로 잘못된 기법을 사용하고 있고 다른 과학자들은 잘 알지도 못하는 신기술에만 매달리곤 한다.

Not even wrong

증거의 다른 의미에 끼워 맞추기는 수많은 과학 연구를 잘못되게 하는 길이다. Nature와 같은 저널의 동료 평가자들은 편집자의 논문의 결점만큼이나 참신성과 중요함에 대한 의견을 제공한다. 그러나 비영리 Public Library of Science에 의해 운영되는 Plos One과 같은 최근의 어떤 저널들은 비교적 덜 까다롭게 지적한다. 이러한 온라인의 ‘최소 임계’ 저널들은 최고를 골라내기보다 가급적 많은 연구들을 확보하려 한다. 이러한 저널들에서 동료 평가자들은 논문이 방법론적으로 합당한지만 보게 된다. Plos One 저널에 제출된 논문 중 절반이 거절되는데 이것은 상당히 관대한 수준이다.

Stodden 박사가 지적한, 연구들이 갈수록 데이터를 감별하고 말하지 않은 수의 데이터를 감추는 함정은 갈수록 깊어지고 있다. 아원자 물리학의 경우 raw data 는 페타바이트 분량으로 쏟아져 나오곤 한다. 까다롭기로 악명높은 기준들을 사용하는데 허용되는 허위양성 비율은 350만개 중 하나이다. (5sigma) 그러나 통계적 유의도와 같은 성능 지수를 극대화가 ‘펜타쿼크’ 전설을 목격하기엔 충분하지 않다. 쿼크는 일반적으로 한 번에 2~3개만 보인다. 2000년데 중반에 여러 연구실에서 특이한 다섯 번째 쿼크 입자 합성의 증거들을 발견해내기 시작했다. 그 분석은 5-sigma 분석을 만족했다. 그러나 데이터는 적절히 ‘블라인드’ 되지 않았다. 실험자들에게 그들이 ‘보아야’ 하는 것이 늘어날 것이었다. 이것이 사람들이 임상실험적 데이터가 ‘연구 그룹’ 으로부터 왔는지 아니면 통제 그룹으로부터 왔는지 블라인드되어야 하는 이유이다. 적절하게 블라인드되자, 어디에서나 발견되었다던 펜타쿼크는 사라졌다.

다른 ‘데이터가 큰’ 학제들도 비슷한 도전을 맞곤 한다. 수많은 다양한 방향으로 ‘튜닝’ 될 수 있는 모델들은 연구자들에게 존재하지 않는 패턴에 대한 더 많은 인지를 던져주곤 한다. 어떤 추정에 따르면, 기계 학습에 대해 출판된 3/4가 무의미하거나 속임수에 불과한데, MIT 의 Sandy Pentland 의 설명에 따르면 이것들은 ‘과도하게 피팅된’ 때문이다.

비슷한 문제들이 명망 높은 저널인 Science 지에 2010년 실린 논문에서 철회되었다. 이 논문은 장수와 높은 연관관계를 갖고 있는 유전자 변종을 발견했다고 주장했다. 다른 유전학자들은 그 결과가 100세 이상의 장수 노인들로 이루어진 통제군과 더 젊은 대조군이 다르게 다루어졌다는 사실을 즉각 발견해냈다. 해당 논문은 1년 뒤 취소되었고, 저자는 ‘기술적 실수’와 ‘부적당한 퀄리티 컨트롤 프로토콜’이 있었음을 인정했다.

논문 취소의 숫자도 지난 10년간 10배 증가하였는데 그러나 그들은 여전히 연간 출간되는 140만 개의 논문의 0.2%에 불과하다. 근본적으로 결함을 갖고 있는 논문들도 종종 살아남곤 한다. 때로는 어떤 논문들은 그 방면의 동료들로부터 오명을 키우곤 한다. 그러나 아웃사이더들에게 이것은 과학적 계율로 받아들여지곤 한다.

Blame the ref

출판된 연구 결과들에 교정되지 않은 수많은 결함이 있을 것이라는 생각은, 그들 대부분이 동료평가를 거치기 때문에, 사실이 아닐 것처럼 보인다. 객관적인 전문가들에 의한 철저한 검증 – 돈이 아니라 전문가적 신념에 의한 – 은 종종 과학적 문헌들을 신뢰하게 만들지만, 현실 속에서 그것들은 오류 교정을 제대로 하지 못하고 있다.

하버드의 생물학자 John Bohannon은 최근에 암세포의 진균류로부터 파생된 화학물질의 효과에 대한 익명의 논문을, 동료 평가 과정을 내세우고 있는 304종류의 저널에 제출하였다. 완전히 날조되고 시험 설계와 분석 및 결과의 해석에 있어 어리석은 실수로 가득 찬 보기 드문 논문이었다. 가공의 대학교에서 가상의 연구자가 만든 이 엉터리 논문은 157군데에서 출판되었다.

Bohannon 박사의 이 장난(?)은 비교적 낮은 수준의 저널들을 대상으로 행해진 것이었다. 그러나 British Medical Journal의 편집장인 Fiona Godlee의 고전적인 1998년 연구는 실험 설계 과정에서 8개의 의도적인 실수와 분석 그리고 해석이 포함되었지만 이 저널의 200여 리뷰어 중 어느 누구도 모든 실수를 잡아내지는 못했다. 일부가 2개 이하를 지적했을 뿐이었다.

BMJ의 또다른 실험은 리뷰어들이 비교적 명쾌하게 정의된 문제를 맞닥뜨렸을 때 더 잘 검증하지 못한다는 사실을 보여준다. 경험있는 경우에도 나을 것은 없었다. 캘리포니아, 샌프란시스코 대학 University of California, San Francisco의 Charles McCulloch 와 Michael Callaham 은 앞선 레벨의 저널에서 14년의 경력을 가진 편집 경력자 1,500명 중 92%가 이 부분에서 점진적으로 낮은 능력을 보여줬다.

찾아내야 할 문제점을 놓치는 것만이 아니라, 검토 자체를 하지 않는 리뷰어도 많다. 그들은 대체적으로 처음부터 데이터를 재분석하지도 않을뿐더러 저자의 분석이 적절히 구성되어 있기만 하면 만족하고 넘어가는 수준이다. 때문에 그들에게, 약간만 주의를 기울이면 되는 수준일지라도, 고의적인 실수를 잡아내길 기대하기는 어렵다.

단언하기는 어렵지만, 능력 부족 다음으로 잘못된 결과를 만들어 내는 두 번째 요인은 사기이다. Fanelli 박사는 1987년부터 2008년까지 21개의 다른 서베이를 통해 (주로 생명과학 분야였지만 토목이나 화학 및 경제학도 포함되었다) 단지 2% 가량만이 그들의 데이터를 윤색 또는 조작한다는 답변을 받았지만, 28%의 응답자가 동료의 연구가 수상하다고 대답했다.

동료 평가의 복합적인 실수는 과학의 자정 작용 – 재연 – 이 제대로 이루어지기만 한다면야 크게 문제되지 않을 수도 있다. 종종 재연은 다른 결과를 빚어내고 때로는 언론의 헤드라인을 장식할 정도의 대박을 치기도 하는데, 메사추세츠 대학의 Thomas Herndon 의 경우가 그렇다. 그는 Carmen Reinhart 와 Kenneth Rogoff의 성장과 긴축에 대한 논문을 검토하다가 스프레드시트를 비롯한 다양한 오류가 있음을 밝혀내었다.

Harder to clone than you would wish

이러한 헤드라인은 드문데, 재현하기도 어렵고 별로 생색도 안 나기 때문이다. 참신함에 목마른 저널들이 이런 데에 관심을 가질 리가 없으며, 최저 기준만으로도 많은 것을 바꿀 수 있지만, 여전히 이것을 지나치게 크게 보고 있다. 대부분의 학계 연구자들은 그들의 커리어에 도움이 되는 것에 집중하고 있다. 이것은 특히 주니어 연구자들에게 심한데 이들에게는 재연 연구가 권위에 대한 도전으로 받아들여질 수 있기 때문이다. 도끼를 가는 열정과 활력을 지닌 사람 – 자신들의 연구가 재연될까봐 사람들을 경계하게 만드는 사태 – 를 감수할 사람들만이 재연 실험을 추구하곤 한다.

재연을 어렵게 만드는 방법은 또 있다. 실험의 재구성은 종종 원본 방법과 데이터를 요구하게 마련이다. 오레곤 보건과학대학 Oregon Health and Science University의 Melissa Haendel이 PeerJ 에 발표한 논문의 경우 동료 연구자들의 확인 결과 84개 저널에 실린 238개의 의학 논문 중 절반 이상이 (시약 등의) 재구성을 위한 리소스를 파악할 수 없는 것으로 드러났다. Annals of Internal Medicine의 편집자 Christine Laine 은 시카고의 동료 리뷰 협회에 5년 전에는 60%의 연구자들의 동료와 raw 데이터를 나누겠다고 응답했지만 지금은 45%에 불과하다고 말했다. 저널들의 주장과는 다르게 Loannidis 박사가 50대 저널에서 무작위로 선정한 351개의 논문 중 데이터 공유 정책을 수립하고 있는 논문은 143개에 불과했다.

출간되지 않은 연구에 대한 데이터도 있다. BMJ 의 조사에 따르면 NIH 가 지원한 임상 시험 중 종료 후 30개월 내로 학술 저널에 출간되는 것은 절반도 되지 않으며 1/3 가량은 NIH에 공개 규정이 있음에도 51개월이 지나도 미공개로 남는다.

임상 시험은 특히 재연이 어렵다. 다른 사람들은 같은 문제에 대하여 관련 데이터를 필요로 한다 데이터의 부분집합을 통해 연구자들은 의도적으로든 우연으로든 답을 구해낼 수 있다. 영국의 의사이자 저자인 Ben Goldacre는 대형 제약회사로 하여금 그들의 임상시험자료를 공개 및 공유하고자 하는 캠페인을 이끌고 있으며, 올 1월 영국의 대형 제약회사 글락소스미스클라인이 시험데이터를 공개한 첫 기업이 되었다.

소프트웨어도 재연 문제의 원인이 될 수 있다. 데이터 분석이나 모델링을 위한 어떤 코드는 수년간의 작업의 결과물들이며 때로는 연구자들에게 미래의 발전을 위한 지적재산권이 연괸되었을 수도 있다. 대부분의 과학자들이 데이터 공유에는 동의하지만, 소스코드에 대해서는 그렇지 않다. 데이터 셰어링을 포함하는 저널들도 소프트웨어에 대해서는 비슷한 입장을 취하고 있다.

Cardiff University의 사회학자 Harry Collins는 재연 연구자들에게 와 닿을 만한 좀 더 미묘한 포인트를 만들어냈다. 시험 방법을 묘사하는 데 사용된 논문의 일부가 기준에 도달하거나 미달할지라도 실험은 언제나 ‘암묵지 tacit knowledge’ 를 수반하게 마련이다. 만약 재연이 실패할 경우 재연자가 ‘이 좋은’ 프로토콜을 정확히 따르지 않았던 것으로 만들면 된다.

극단적으로, 이는 Collins 박사가 지적했던 대로 ‘실험자의 후퇴’로 이어질 수 있다. 재연이 항상 원본과 같은 결과를 낼 때에만 재연이 제대로 된 것이라고 한다면, 재연은 의미가 없는 것이다. 이를 피하기 위해 ‘같은 절차’를 따르기만 하면 그 재연은 유효한 것이라는 합의가 암묵지와 시험의 판단 안에서 인식될 것을 요구한다. 과학자들은 상황이 가장 좋을 때에도 이러한 점에 논의하기를 꺼려왔으며 때로는 적대적으로 반응하기도 한다.

일부 단체는 재연을 권장하려고 하고 있다. PLoS ONE 과 Science Exchange 는 연구자들과 실험실들 간 연결 서비스를 제공한다. Reproducibility Initiative라 불리는 이 프로그램은 생명과학자들의 연구 결과를 독립된 연구소들이 검증토록 하게 해 준다. 10월 16일 Laura and John Arnold 재단의 130만 달러 기부를 받아, 2010~2012년 간 가장 임팩트 있는 암 연구 결과 중 상위 50개를 검증해보는 프로젝트이다. 졸업생들이 운영하는 Blog Syn 이라는 웹사이트는 오로지 논문에 보고된 화학반응의 재구성만을 한다. 그들의 첫 재연은, 작동은 하였으나 효율은 원래 연구보다 매우 낮았다.

Making the paymasters care

“출간된 결과에 대한 철저한 검증을 실패하고 있다”는 자각 하에, Nature 를 비롯한 자매지들은 18포인트의 체크리스트를 도입하였다. 그 목적은 모든 실험의 재연이나 혹은 바이어스를 교정하기 위해 중요한 기술적 통계적 정보를 확실하게 하기 위함이다. 논문의 방법 부분이 온라인에서 자세하게 추가되고, 예전에는 데이터의 일부 클래스들만 밝혀졌다면 지금은 모두 공개되어야 한다.

변화는 심리학계에서 가장 빠르게 나타나고 있다. 3월에 Nosek 박사는 Arnold Foundation으로부터 530만 달러의 후원을 받아 독립 연구소인 Center for Open Science를 세웠는데, 이 연구소의 주 목표는 신뢰할 만한 재연 시험을 수행하여 기존 연구들을 검증하는 것이다. 미국 심리과학학회의 디렉터인 Alan Kraut 덕분에 협회의 대표 저널인 Perspectives on Psychological Science 는 재연 검증 전문 섹션을 만들게 되었다. 이는 Nosek 박사를 선봉으로 하여 2008년 첫 3개월 간 3개의 선도적인 심리학 저널에 실린 100개의 논문들을 교차검증하는 것으로 첫 테이프를 끊었다.

과학에 종사하는 사람들은 이 분야에서 발전하려는 욕망에 사로잡히지 않은 것으로 보인다. European Research Council의 의장인 Helga Nowotny는 재연 연구가 십중팔구 곧 중단될 것이라고 말했는데 이는 협회의 주 관심이 개척적인 연구에 있었기 때문이다. 미국국립과학재단 천문과학 분과장인 James Ulvestad는 이 독립 재단에 대해 ‘최고의 위치에 있거나 그들의 중요도 리스트에 올라 있는 선행 연구들을 복제하는 방법을 찾는 연구를 하지 않으려는” 결정에 대해 승인을 얻은 점에 대해 가치를 부여한다고 말했다. 영국의 공공 보조 연구를 감독하는 리서치 자문인 Douglas Kell은 현재의 프로시저가 적어도 긍정적인 결과에 대한 편견의 문제를 교정한다고 주장했다. “누군가 실험을 하고 무언가를 발견하지 못하면, 그럼에도 그가 출판을 한 점에 대해 재단은 높이 평가할 것이다.”

Science 지의 편집자 Bruce Albert 는 의회 증언에서 3월 5일 무엇이 과학 기업과 사업의 신뢰성을 강화할 수 있는지에 대하여 개략적으로 서술하였다. 저널들은 기준을 강화해야 하고 Nature 지에 의해 도입된 체크리스트가 연구의 일반 보편 오류를 걸러내기 위해 보다 광범위하게 받아들여지고 더 강화되어야 한다. 신예 과학자들은 통계학을 비롯한 테크니컬한 스킬을 더 배워야 하고, 그들과 동료들에 대한 회의주의를 익혀야 한다. 연구자들은 양이 아니라 질로 판단되어야 한다. 펀딩 에이전시는 재연과, 실패한 시험의 보고와 기록에 대해 더 인센티브를 주어야 한다. 이러한 실패들에 대한 정보도 출간에 첨부되어야 한다.

과학자들 자신이, Albert 박사가 주장하듯이, “공연히 알려지지 않은 누군가의 실수가 과학적 명성에 치명타를 주는 것보다는 보호하는 가치 시스템을 구축할 필요가 있다.” 이것이 쉽지는 않은 일이지만, 이 기조를 유지해야만, 과학은 좀 더 신뢰할 만해질 것이고, 또한 그래야만 한다.