“열차의 잔해가 나타나고 있다” 저명한 심리학자인 Daniel Kahneman는 작년 공개 편지에서 경고한다. 연구에 대한 불길한 예감은 이른바 ‘priming’ 이라고 하는 현상이다. Priming에 대한 연구는, 결정이 선택 끝의 명백히 무관한 동작이나 사건들로 인해 영향받는 현상을 말한다. 지난 10년간 심리학에서 가장 주목받는 위치를 차지했고 연구소를 나와 대중들에게까지 영향을 미쳤다.
Kahneman 박사를 비롯한 많은 동료들이 이런 발화 연구의 기초가 엉성한 점에 대해 걱정하고 있다. 지난 몇 년간 다양한 연구자들이 널리 인용된 priming 실험을 재연하려는 시도를 해 왔다. 그러나 이들 시도들은 대부분 실패하였다. 4월 PLoS ONE 저널에는 9개의 독립된 실험이 시험을 보기 전에 교수를 떠올리는 것이 풋볼 훌리건들에 대해서 생각하는 것보다 높은 점수를 받게 한다는 1998년의 유명한 이론이 재연되지 않는다고 보고하였다.
동일한 실험은 누가 수행하건 항상 동일한 결과를 얻는다는 사상은 과학이 객관적 진실을 확보하는 시금석이다. 체계적 재연이 동일한 결과로 이어지지 않는다면 원래 연구이나 재연 둘 중 하나가 결함이 있는 것이다. 어느 쪽이건 무언가는 엉망이 된다.
To err is all too common
Priming 효과를 둘러싼 논쟁을 심리학 분야의 사소한 사건으로 무시해버리고픈 바램도 작은 것이 아니지만 이러한 재연불가성은 훨씬 넓게 퍼져 있다. 몇 년 전 미국의 제약 회사 Amgen 이 그간 암 연구의 랜드마크로 꼽았던 53개의 연구 결과를 최초 연구자와 협력하여 재연해보았다. 작년 그들이 Nature 지에 발표한 바에 따르면 그것들 중 단 6가지만이 원래 결과를 그대로 도출할 수 있었다. 한달 전 독일의 거대 제약회사 Bayer HealthCare 의 Florian Prinz와 그의 동료들은 67개의 중대한 연구 중 1/4만이 처음 보고된 대로의 결과를 내놓았다는 결과를 Nature Reviews Drug Discovery에 출간하였다.
부유한 국가들의 모임인 OECD 정부는 2012년 590억 달러를 생의학 연구에 투자했는데 이는 2000년의 거의 두 배에 달하는 수치다. 정부 기반의 기초 과학 연구는 사기업의 신약 개발의 기초가 되는 것이 그 한 이유다. 만약 기업들이 학계의 연구에 의존하지 않는다면 이러한 추론은 무너지게 된다. 국립건강원 America’s National Institutes of Health (NIH) 이 절망적으로 낸 통계에 따르면 연구자들은 적어도 3/4 가량의 출판된 생의학적 연구 결과를 재연하지 못하고 있다. 연구개발의 공공프로세스가 실패하고 있는 것이다.
학계의 과학자들은 문제가 있다는 사실을 선뜻 인정하곤 하지만, 그들도 이러한 문제들을 시간이 지나 다른 과학자들이 앞으로 밝혀줄 것이라는 사상을 고집한다. 수많은 의심스러운 결과들이, 나중에 교정되거나 철회되는 결과보다 훨씬 더 많이 출판되고 있다는 사실은 자정 능력이 지나치게 과시된 것이 아닌가 하는 의문을 불러일으킨다.
다양한 요인들이 문제를 유발한다. 통계 실수는 흔하고, 저널이 출간되기 전에 논문을 검증하는 Peer 리뷰어는 생각보다 실수를 잘 잡아내지 못한다. 직업적 압력, 경쟁 및 현명해지기보다 신속하고 더 많이 출간하고자 하는 야망 등이다 많은 논문을 쏟아내야 하는 커리어 구조도 이러한 문제를 악화시키는 요인이다. 버지니아 대학교의 심리학자 Brian Nosek는 제자들의 끈질긴 오류들에 대해서 “이런 상황이 치루어야 하는 비용이 없다” 라고 말한다.
첫번째는, 좋아하기 힘든, 통계다. Type I 오류는 참이 아닌 것을 참이라고 생각하는 것이다. Type II 오류는 참인 것을 거짓이라고 판단하는 것이다. 특정 가설을 검정할 때 과학자들은 통계적 체크를 거친다. 만약 이러한 false positive 결론이 나올 확률이 5% 미만이라면 가설이 ‘통계적으로 의미있는’ 사실임이 유력하다.
Understanding insignificance
2005년 스탠포드대의 전염병학자 John Ioannidis는 통계적 로직을 통해 20회가 false positive 결과에 지나치게 낙관적이라는 연구를 공개함으로써. 논란을 일으켰다. 대신 그는 ‘대부분의 출간된 연구 결과는 아마도 잘못되었을 것이다’ 라고 주장했다. 그가 말했던 대로 4년마다 열리는 국제 Peer Review 및 국제 생의학 학회에서 그 문제는 사라지지 않았다.
Dr Ioannidis는 과학자들의 통계의 중요성에 대한 관례적인 접근이 세 가지 – 연구의 통계적 검증력 (2종 오류를 피할 가능성의 수단, 노이즈 속에서 진짜 신호를 놓치는 위음성), 가설이 검증되지 않을 가능성, 그리고 새로운 것을 발견해야 한다는 강박이 주는 편견 - 를 무시하곤 한다는 냉엄한 결론에 도달했다.
통계적 검증력이 있는 연구는 데이터의 효과가 작을 때에도 무언가를 건져낼 수 있게 해 준다. 일반적으로 큰 연구 – 여러 차례 실험되고 많은 환자를 고용하는 등 – 에서는 더욱 강력해진다. 0.8 지수이란 10개의 참 가설이 검증되었을 때 단지 두 가지만 배제되곤 한다는 것인데 그 이유는 그 효과가 데이터에서 골라지지 않기 때문이다. 이것은 경험적으로 많은 연구에서 받아들여지는 현상인데 그러나 이 벤치마크는 비용이 많이 드는 큰 연구에서는 항상 맞지는 않다. Ioannidis 박사가 4월에 동료들과 수행한 조사에 따르면 일반적인 신경과학 연구에서 통계적 검증력은 실패율 0.21인데, 암스테르담 대학교의 Marjan Bakker 연구진이 Perspectives on Psychological Science에 제출한 결과에서는 평균 지수가 0.35에 달했다.
발생하지 않을 가능성 또한 결과가 얼마나 놀라울 수 있을지에 대한 지표이다. 대체로 과학자들은 놀라운 결과를 원하곤 하는데 때문에 그들은 일반적으로 있을 법하지 않을 가설들에 대해서 더 도전하는 경향이 있다. Ioannidis 박사는 그의 전공 분야인 역학(疫學)에서 연구자들은 가설 10개 중 1개 정도가 참이길 기대할 수 있다. 유전자와 단백질로부터 얻어진 광대한 데이터들을 연결하는 유전체학 같은 탐사 체계에서는 천 개의 가설 중 하나만 맞아도 다행이다.
이로 인해, 1천 개의 가설이 시험되어 단 100 개가 참임이 밝혀진다면 0.8의 신뢰 지수에 따르면 진짜 참은 80개가 되고 20개는 위음성 (가짜 부정) 이 된다. 900개 가설이 거짓으로 나타났다면 이중 5%인 45개는 1종 오류에 의해 참이다. 통계 검증력 지수에 의해 참으로 나타난 125개의 결과를 얻는데, 1/3은 겉으로만 그럴싸한 것이다. 만약 통계적 검증력이 0.4로 떨어지게 된다면 (현실적으로 대부분의 연구에서 그러하곤 하지만) 45개의 위양성이 발생하고 결국 참 진실은 40개가 남게 된다. 참 결과의 절반 이상이 잘못된 것이다.
부정적인 결과들은 훨씬 더 신뢰할 만 하다. 신뢰 지수가 0.8인 1000 개의 가설 시험에서 875가 부정적인 결과들이고 이중 20개만 오류이다. 정확도는 97%가 넘는다. 그러나 연구자들과 저널은 부정적인 결과에는 흥미를 보이지 않는다. 그들은 긍정을 강조하기 좋아하기 때문에 실수를 저지르기 쉽게 된다. 부정적 결과는 출간된 과학 문헌 중 학제에 따라 10~30%에 불과하다. 이 편향은 갈수록 심해지고 있는데, 에딘버러 대학의 Daniele Fanelli가 1990년부터 2007년의 기간에 걸쳐 조사한 바에 따르면 4600개의 논문 결과 중 부정적인 결과의 비율은 30%에서 14%로 하락했다. 영국 왕립 화학회장 Lesley Yellowlees는 100개 이상의 논문을 출판했는데 이중 부정적 결과를 내고 있는 건 1개뿐이었다.
통계학자들은 이 문제들을 어떻게 다루어야 할 지 알고 있지만, 대부분의 과학자들은 통계학자가 아니다. 컬럼비아의 통계학자 Victoria Stodden은 여러 해 동안 강연과 교육을 해 왔지만 과학자들의 통계에 대한 이해도는 데이터를 다루기 위한 복잡한 수학 기술의 발전에 미치지 못하고 있다고 말한다. 어떤 과학자들은 편하다는 이유로 잘못된 기법을 사용하고 있고 다른 과학자들은 잘 알지도 못하는 신기술에만 매달리곤 한다.
Not even wrong
증거의 다른 의미에 끼워 맞추기는 수많은 과학 연구를 잘못되게 하는 길이다. Nature와 같은 저널의 동료 평가자들은 편집자의 논문의 결점만큼이나 참신성과 중요함에 대한 의견을 제공한다. 그러나 비영리 Public Library of Science에 의해 운영되는 Plos One과 같은 최근의 어떤 저널들은 비교적 덜 까다롭게 지적한다. 이러한 온라인의 ‘최소 임계’ 저널들은 최고를 골라내기보다 가급적 많은 연구들을 확보하려 한다. 이러한 저널들에서 동료 평가자들은 논문이 방법론적으로 합당한지만 보게 된다. Plos One 저널에 제출된 논문 중 절반이 거절되는데 이것은 상당히 관대한 수준이다.
Stodden 박사가 지적한, 연구들이 갈수록 데이터를 감별하고 말하지 않은 수의 데이터를 감추는 함정은 갈수록 깊어지고 있다. 아원자 물리학의 경우 raw data 는 페타바이트 분량으로 쏟아져 나오곤 한다. 까다롭기로 악명높은 기준들을 사용하는데 허용되는 허위양성 비율은 350만개 중 하나이다. (5sigma) 그러나 통계적 유의도와 같은 성능 지수를 극대화가 ‘펜타쿼크’ 전설을 목격하기엔 충분하지 않다. 쿼크는 일반적으로 한 번에 2~3개만 보인다. 2000년데 중반에 여러 연구실에서 특이한 다섯 번째 쿼크 입자 합성의 증거들을 발견해내기 시작했다. 그 분석은 5-sigma 분석을 만족했다. 그러나 데이터는 적절히 ‘블라인드’ 되지 않았다. 실험자들에게 그들이 ‘보아야’ 하는 것이 늘어날 것이었다. 이것이 사람들이 임상실험적 데이터가 ‘연구 그룹’ 으로부터 왔는지 아니면 통제 그룹으로부터 왔는지 블라인드되어야 하는 이유이다. 적절하게 블라인드되자, 어디에서나 발견되었다던 펜타쿼크는 사라졌다.
다른 ‘데이터가 큰’ 학제들도 비슷한 도전을 맞곤 한다. 수많은 다양한 방향으로 ‘튜닝’ 될 수 있는 모델들은 연구자들에게 존재하지 않는 패턴에 대한 더 많은 인지를 던져주곤 한다. 어떤 추정에 따르면, 기계 학습에 대해 출판된 3/4가 무의미하거나 속임수에 불과한데, MIT 의 Sandy Pentland 의 설명에 따르면 이것들은 ‘과도하게 피팅된’ 때문이다.
비슷한 문제들이 명망 높은 저널인 Science 지에 2010년 실린 논문에서 철회되었다. 이 논문은 장수와 높은 연관관계를 갖고 있는 유전자 변종을 발견했다고 주장했다. 다른 유전학자들은 그 결과가 100세 이상의 장수 노인들로 이루어진 통제군과 더 젊은 대조군이 다르게 다루어졌다는 사실을 즉각 발견해냈다. 해당 논문은 1년 뒤 취소되었고, 저자는 ‘기술적 실수’와 ‘부적당한 퀄리티 컨트롤 프로토콜’이 있었음을 인정했다.
논문 취소의 숫자도 지난 10년간 10배 증가하였는데 그러나 그들은 여전히 연간 출간되는 140만 개의 논문의 0.2%에 불과하다. 근본적으로 결함을 갖고 있는 논문들도 종종 살아남곤 한다. 때로는 어떤 논문들은 그 방면의 동료들로부터 오명을 키우곤 한다. 그러나 아웃사이더들에게 이것은 과학적 계율로 받아들여지곤 한다.
Blame the ref
출판된 연구 결과들에 교정되지 않은 수많은 결함이 있을 것이라는 생각은, 그들 대부분이 동료평가를 거치기 때문에, 사실이 아닐 것처럼 보인다. 객관적인 전문가들에 의한 철저한 검증 – 돈이 아니라 전문가적 신념에 의한 – 은 종종 과학적 문헌들을 신뢰하게 만들지만, 현실 속에서 그것들은 오류 교정을 제대로 하지 못하고 있다.
하버드의 생물학자 John Bohannon은 최근에 암세포의 진균류로부터 파생된 화학물질의 효과에 대한 익명의 논문을, 동료 평가 과정을 내세우고 있는 304종류의 저널에 제출하였다. 완전히 날조되고 시험 설계와 분석 및 결과의 해석에 있어 어리석은 실수로 가득 찬 보기 드문 논문이었다. 가공의 대학교에서 가상의 연구자가 만든 이 엉터리 논문은 157군데에서 출판되었다.
Bohannon 박사의 이 장난(?)은 비교적 낮은 수준의 저널들을 대상으로 행해진 것이었다. 그러나 British Medical Journal의 편집장인 Fiona Godlee의 고전적인 1998년 연구는 실험 설계 과정에서 8개의 의도적인 실수와 분석 그리고 해석이 포함되었지만 이 저널의 200여 리뷰어 중 어느 누구도 모든 실수를 잡아내지는 못했다. 일부가 2개 이하를 지적했을 뿐이었다.
BMJ의 또다른 실험은 리뷰어들이 비교적 명쾌하게 정의된 문제를 맞닥뜨렸을 때 더 잘 검증하지 못한다는 사실을 보여준다. 경험있는 경우에도 나을 것은 없었다. 캘리포니아, 샌프란시스코 대학 University of California, San Francisco의 Charles McCulloch 와 Michael Callaham 은 앞선 레벨의 저널에서 14년의 경력을 가진 편집 경력자 1,500명 중 92%가 이 부분에서 점진적으로 낮은 능력을 보여줬다.
찾아내야 할 문제점을 놓치는 것만이 아니라, 검토 자체를 하지 않는 리뷰어도 많다. 그들은 대체적으로 처음부터 데이터를 재분석하지도 않을뿐더러 저자의 분석이 적절히 구성되어 있기만 하면 만족하고 넘어가는 수준이다. 때문에 그들에게, 약간만 주의를 기울이면 되는 수준일지라도, 고의적인 실수를 잡아내길 기대하기는 어렵다.
단언하기는 어렵지만, 능력 부족 다음으로 잘못된 결과를 만들어 내는 두 번째 요인은 사기이다. Fanelli 박사는 1987년부터 2008년까지 21개의 다른 서베이를 통해 (주로 생명과학 분야였지만 토목이나 화학 및 경제학도 포함되었다) 단지 2% 가량만이 그들의 데이터를 윤색 또는 조작한다는 답변을 받았지만, 28%의 응답자가 동료의 연구가 수상하다고 대답했다.
동료 평가의 복합적인 실수는 과학의 자정 작용 – 재연 – 이 제대로 이루어지기만 한다면야 크게 문제되지 않을 수도 있다. 종종 재연은 다른 결과를 빚어내고 때로는 언론의 헤드라인을 장식할 정도의 대박을 치기도 하는데, 메사추세츠 대학의 Thomas Herndon 의 경우가 그렇다. 그는 Carmen Reinhart 와 Kenneth Rogoff의 성장과 긴축에 대한 논문을 검토하다가 스프레드시트를 비롯한 다양한 오류가 있음을 밝혀내었다.
Harder to clone than you would wish
이러한 헤드라인은 드문데, 재현하기도 어렵고 별로 생색도 안 나기 때문이다. 참신함에 목마른 저널들이 이런 데에 관심을 가질 리가 없으며, 최저 기준만으로도 많은 것을 바꿀 수 있지만, 여전히 이것을 지나치게 크게 보고 있다. 대부분의 학계 연구자들은 그들의 커리어에 도움이 되는 것에 집중하고 있다. 이것은 특히 주니어 연구자들에게 심한데 이들에게는 재연 연구가 권위에 대한 도전으로 받아들여질 수 있기 때문이다. 도끼를 가는 열정과 활력을 지닌 사람 – 자신들의 연구가 재연될까봐 사람들을 경계하게 만드는 사태 – 를 감수할 사람들만이 재연 실험을 추구하곤 한다.
재연을 어렵게 만드는 방법은 또 있다. 실험의 재구성은 종종 원본 방법과 데이터를 요구하게 마련이다. 오레곤 보건과학대학 Oregon Health and Science University의 Melissa Haendel이 PeerJ 에 발표한 논문의 경우 동료 연구자들의 확인 결과 84개 저널에 실린 238개의 의학 논문 중 절반 이상이 (시약 등의) 재구성을 위한 리소스를 파악할 수 없는 것으로 드러났다. Annals of Internal Medicine의 편집자 Christine Laine 은 시카고의 동료 리뷰 협회에 5년 전에는 60%의 연구자들의 동료와 raw 데이터를 나누겠다고 응답했지만 지금은 45%에 불과하다고 말했다. 저널들의 주장과는 다르게 Loannidis 박사가 50대 저널에서 무작위로 선정한 351개의 논문 중 데이터 공유 정책을 수립하고 있는 논문은 143개에 불과했다.
출간되지 않은 연구에 대한 데이터도 있다. BMJ 의 조사에 따르면 NIH 가 지원한 임상 시험 중 종료 후 30개월 내로 학술 저널에 출간되는 것은 절반도 되지 않으며 1/3 가량은 NIH에 공개 규정이 있음에도 51개월이 지나도 미공개로 남는다.
임상 시험은 특히 재연이 어렵다. 다른 사람들은 같은 문제에 대하여 관련 데이터를 필요로 한다 데이터의 부분집합을 통해 연구자들은 의도적으로든 우연으로든 답을 구해낼 수 있다. 영국의 의사이자 저자인 Ben Goldacre는 대형 제약회사로 하여금 그들의 임상시험자료를 공개 및 공유하고자 하는 캠페인을 이끌고 있으며, 올 1월 영국의 대형 제약회사 글락소스미스클라인이 시험데이터를 공개한 첫 기업이 되었다.
소프트웨어도 재연 문제의 원인이 될 수 있다. 데이터 분석이나 모델링을 위한 어떤 코드는 수년간의 작업의 결과물들이며 때로는 연구자들에게 미래의 발전을 위한 지적재산권이 연괸되었을 수도 있다. 대부분의 과학자들이 데이터 공유에는 동의하지만, 소스코드에 대해서는 그렇지 않다. 데이터 셰어링을 포함하는 저널들도 소프트웨어에 대해서는 비슷한 입장을 취하고 있다.
Cardiff University의 사회학자 Harry Collins는 재연 연구자들에게 와 닿을 만한 좀 더 미묘한 포인트를 만들어냈다. 시험 방법을 묘사하는 데 사용된 논문의 일부가 기준에 도달하거나 미달할지라도 실험은 언제나 ‘암묵지 tacit knowledge’ 를 수반하게 마련이다. 만약 재연이 실패할 경우 재연자가 ‘이 좋은’ 프로토콜을 정확히 따르지 않았던 것으로 만들면 된다.
극단적으로, 이는 Collins 박사가 지적했던 대로 ‘실험자의 후퇴’로 이어질 수 있다. 재연이 항상 원본과 같은 결과를 낼 때에만 재연이 제대로 된 것이라고 한다면, 재연은 의미가 없는 것이다. 이를 피하기 위해 ‘같은 절차’를 따르기만 하면 그 재연은 유효한 것이라는 합의가 암묵지와 시험의 판단 안에서 인식될 것을 요구한다. 과학자들은 상황이 가장 좋을 때에도 이러한 점에 논의하기를 꺼려왔으며 때로는 적대적으로 반응하기도 한다.
일부 단체는 재연을 권장하려고 하고 있다. PLoS ONE 과 Science Exchange 는 연구자들과 실험실들 간 연결 서비스를 제공한다. Reproducibility Initiative라 불리는 이 프로그램은 생명과학자들의 연구 결과를 독립된 연구소들이 검증토록 하게 해 준다. 10월 16일 Laura and John Arnold 재단의 130만 달러 기부를 받아, 2010~2012년 간 가장 임팩트 있는 암 연구 결과 중 상위 50개를 검증해보는 프로젝트이다. 졸업생들이 운영하는 Blog Syn 이라는 웹사이트는 오로지 논문에 보고된 화학반응의 재구성만을 한다. 그들의 첫 재연은, 작동은 하였으나 효율은 원래 연구보다 매우 낮았다.
Making the paymasters care
“출간된 결과에 대한 철저한 검증을 실패하고 있다”는 자각 하에, Nature 를 비롯한 자매지들은 18포인트의 체크리스트를 도입하였다. 그 목적은 모든 실험의 재연이나 혹은 바이어스를 교정하기 위해 중요한 기술적 통계적 정보를 확실하게 하기 위함이다. 논문의 방법 부분이 온라인에서 자세하게 추가되고, 예전에는 데이터의 일부 클래스들만 밝혀졌다면 지금은 모두 공개되어야 한다.
변화는 심리학계에서 가장 빠르게 나타나고 있다. 3월에 Nosek 박사는 Arnold Foundation으로부터 530만 달러의 후원을 받아 독립 연구소인 Center for Open Science를 세웠는데, 이 연구소의 주 목표는 신뢰할 만한 재연 시험을 수행하여 기존 연구들을 검증하는 것이다. 미국 심리과학학회의 디렉터인 Alan Kraut 덕분에 협회의 대표 저널인 Perspectives on Psychological Science 는 재연 검증 전문 섹션을 만들게 되었다. 이는 Nosek 박사를 선봉으로 하여 2008년 첫 3개월 간 3개의 선도적인 심리학 저널에 실린 100개의 논문들을 교차검증하는 것으로 첫 테이프를 끊었다.
과학에 종사하는 사람들은 이 분야에서 발전하려는 욕망에 사로잡히지 않은 것으로 보인다. European Research Council의 의장인 Helga Nowotny는 재연 연구가 십중팔구 곧 중단될 것이라고 말했는데 이는 협회의 주 관심이 개척적인 연구에 있었기 때문이다. 미국국립과학재단 천문과학 분과장인 James Ulvestad는 이 독립 재단에 대해 ‘최고의 위치에 있거나 그들의 중요도 리스트에 올라 있는 선행 연구들을 복제하는 방법을 찾는 연구를 하지 않으려는” 결정에 대해 승인을 얻은 점에 대해 가치를 부여한다고 말했다. 영국의 공공 보조 연구를 감독하는 리서치 자문인 Douglas Kell은 현재의 프로시저가 적어도 긍정적인 결과에 대한 편견의 문제를 교정한다고 주장했다. “누군가 실험을 하고 무언가를 발견하지 못하면, 그럼에도 그가 출판을 한 점에 대해 재단은 높이 평가할 것이다.”
Science 지의 편집자 Bruce Albert 는 의회 증언에서 3월 5일 무엇이 과학 기업과 사업의 신뢰성을 강화할 수 있는지에 대하여 개략적으로 서술하였다. 저널들은 기준을 강화해야 하고 Nature 지에 의해 도입된 체크리스트가 연구의 일반 보편 오류를 걸러내기 위해 보다 광범위하게 받아들여지고 더 강화되어야 한다. 신예 과학자들은 통계학을 비롯한 테크니컬한 스킬을 더 배워야 하고, 그들과 동료들에 대한 회의주의를 익혀야 한다. 연구자들은 양이 아니라 질로 판단되어야 한다. 펀딩 에이전시는 재연과, 실패한 시험의 보고와 기록에 대해 더 인센티브를 주어야 한다. 이러한 실패들에 대한 정보도 출간에 첨부되어야 한다.
과학자들 자신이, Albert 박사가 주장하듯이, “공연히 알려지지 않은 누군가의 실수가 과학적 명성에 치명타를 주는 것보다는 보호하는 가치 시스템을 구축할 필요가 있다.” 이것이 쉽지는 않은 일이지만, 이 기조를 유지해야만, 과학은 좀 더 신뢰할 만해질 것이고, 또한 그래야만 한다.