Peter Murray-Rust Explains ContentMine and the Open Access Universe

Benson: Copyright Chat is a podcast dedicated to discussing important copyright matters. Host, Sara Benson, the Copyright Librarian from the University of Illinois, converses with experts from across the globe to engage the public with rights issues relevant to their daily lives.

Welcome to Copyright Chat. Today we have Peter Murray-Rust, a researcher from Cambridge University. He’s visiting me live today in my office. Welcome, Peter.

Murray-Rust: Hi there. Thanks very much, Sara.

Benson: Thank you for coming. So you’ve done some really interesting work with open access. You’re kind of, I would designate you an open access champion.

And I think one of your most interesting projects, at least to me, has been your content mining project, and I thought maybe you could talk a little bit about that, what the impetus for it was, and what kinds of projects people can do with it.

Murray-Rust: Right. So more general than open access. I’m an open advocate on many fronts: open source for code, open data for experiments and other types of data that’s collected, open access for access to the literature, and always of reducing the friction from going from one place to another when we’re transmitting knowledge and creating value as people receive knowledge and aggregate it and filter it and so on.

Benson: And you are very passionate about this. I saw you speak at IFLA, and I remember distinctly you saying to folks, you know, who’s a student in the room, you’re the future of open access, and I thought that was really inspirational. So your content mining software, it’s an open source software, is that right?

Murray-Rust: That’s right, yes.

Benson: And what can people use it for, and what what led you to develop it?

Murray-Rust: Ok, so the software is developed for a technical purpose, and it’s developed for a political purpose. So the political purpose is that all published scientific knowledge should be available to everybody on the planet. So I call it liberation software, software whose job is to liberate knowledge, and make it to widely available, and the technical purpose is to be able to read any paper in the literature, and turn it into what we call semantic form. Semantic means that machines can understand it. That means that the words in the paper, they know how to process. If you put in something like Anopheles, it translates it into a tropical mosquito, for example.

Benson: Oh, ok. So what kinds of projects have your software been used for to date, and what do you see the future of your software use being, I guess?

Murray-Rust: Well, our vision is we want to give every reader in the world software which can help them read the scientific literature. There’s about probably five papers published each minute in science, so no way can humans keep up with it without using machines. So the first job of the machines is to find this, the papers that people want to read. So it searches repositories. It usually comes back with far more papers than people want to read. So the next part of that is to filter it so that they find the papers which are most interesting to them for whatever reason, and each reader is different, so that each reader will have a different set of filters that they apply so they find the papers of interest to them. So shall I give an example?

Benson: Sure.

Murray-Rust: Ok. Well, our current example is malarial mosquitoes, right? People are interested in this for many reasons. They want to find out where the mosquitoes are, what they feed on, how they spread disease, how people can control them, how successful it is, what the politics of malaria are, and so forth. So every reader will have a different view on this, and one person would want to look at the mating of mosquitoes, another would want to look at insecticide resistance, another would want to look at the eradication programs and how successful they had been and so forth. So we’re trying to create an environment where people can essentially just dial in on a graphical interface those things they’re interested in and so forth. Now, when we get to that stage, if it’s widespread, the readers themselves will start coming up with new ideas and say, well, we would like to do this with the information, we would like to link it here, we would like to translate it into Cambodian. It doesn’t matter what, you know, we want to do something with it that the original authors hadn’t thought of and that’s where the power comes, that it’s all open source so people can do whatever they like, and we do our best to make it easy for people to build on top of that and to create new ideas.

Benson: And so have you had some of these new creations emanate from it as of yet, and what are some of those things?

Murray-Rust: Well, a good example then is our youngest reader is from the Netherlands, and he’s fifteen. He’s still at school, but he’s doing research on conifers and the chemicals that they produce. So a lot of the chemicals that we use all the time come from conifers. They’ve got names like pinene from pine trees and so forth, and they’re used because they’ve got interesting aromas or whatever. He’s been studying that from the literature, so he built a resource where he could compare the chemicals which come out of these with the species that produce them. So that’s a simple example.

Benson: And I also remember from your presentation at IFLA that you mentioned us librarians who are managing repositories. We could use your content mining software to mine our own repositories. Could you talk a little bit about that?

Murray-Rust: Absolutely. So over the last fifteen years, most universities in the world have created something called an institutional repository, and in that go a mixture of things of digital artifacts. Some of them are research papers. A large
important part of them is theses, Masters and Ph.D. theses which are deposited in that, but there can also be other digital artifacts, you know, such as field studies or videos or whatever. No, we believe that a valid approach is for those repositories to be used for preservation, but preservation is only a part of it. We want them to be used as well, and in the electronic era, we can reuse repository information just as easily without destroying the function of them as archives. So, for example, we might want to look at studies on mosquitoes. Now I would imagine that in UIUC, there are many theses which talk about mosquitoes. There are many theses which talk about insecticides, and many […] papers which talk about tropical disease, and I don’t know whether that information has ever all been published, because when you have a student doing a Ph.D., often towards the end, they write it up in the thesis, and there isn’t time or resources to get everything in the thesis out into scholarly publications, but the thesis probably contains it in more detail, and obviously, it’s been peer reviewed, because it’s been examined by experts, right? So and the student puts in a lot of effort to make sure it’s high quality because they want to get their Ph.D.

Benson: I can say that having just published a thesis last semester, I know that process well. It was a Master’s thesis, but I do think that those are highly vetted, whether they are published in an academic journal or not.

Murray-Rust: So I would say that we could get a huge amount of information if we join together all of the repositories in the world. No, different countries do it in different ways. In U.K., every university has its own repository, and that is useful if you’re having an inward-looking approach. You know, this is what the university is, this is what its captured, but it’s quite difficult to share it with other people, because there’s a different login approach to each university, […] different API, and different metadata.

In some countries, like the Netherlands, they’re in the central repository or fronts. In the US, it tends to be that they’re all per university. So again, you would have some thousand institutions that you would have to crawl to get this out. I know it would be a huge value in being able to link to those universities and say how to use their APIs and to collect it all in one place.

Benson: That would be an amazing undertaking, but it seems like it would also require quite a bit of collaboration among the librarians and among the institution.

Murray-Rust: Yes, and part of the dichotomy in the universities is that universities are individual organizations, and they have to survive, and in many cases, they have to compete for limited resources, like getting the best students, getting the best grants, perhaps protecting things through various ways to earn money and so on. So often […] universities see other universities as competitors rather than collaborators, and I don’t know how to solve that problem.

As I said, some countries, the national interest trumps the universities. Here, I think it’s the other way around.

I actually think that universities would all benefit by pulling this type of information, because you would create a resource which everybody used, and it would be a resource which the citizens of the country and the world could use in a way that they don’t at the moment. So they would discover new things by having all of this information available.

Benson: Yeah, and I also think there’s an interesting copyright question there, right, because I think Melissa Levine has published a paper about whether or not we can mine data from older dissertations and theses, and I think her conclusion was that we can, under current copyright law or even with copyright law at the time. And so I think that that’s a good thing, right? So if we can, legally, I agree with you, we should, I also think that there are some barriers involved, and it seems like that’s a lot of information to mine, right? So how fast and how comprehensive could say, a database, be if we could get all that content fed into it?

Murray-Rust: So the first question is copyright. Copyright actually was started in the UK by Queen Anne. It’s called the Statute of Anne, and it was to promote the creation of, you know, of creative works, and it had a limited period of about twelve to fifteen years, and unfortunately, that has been lost, and we’re ending up now in this century with copyright as a way of mega corporations owning knowledge, and that’s everything from scholarly publishers like Elsevier, Nature, Wiley, to Disney, to Time Warner, to all of the people who quote own digital content. Copyright is incredibly restrictive because all creative works by their nature are copyright as soon as they’re created. You don’t have to register them or whatever, and the user has to somehow or other satisfy themselves that they can use this, and copyright is vested in huge number of things you wouldn’t think, and I won’t go into the absurdities, but this is probably the most complex legislation on the planet, and so forth. So, the advantage that you have in the case you mention is that the copyright of the theses rest with the students, and if you talk to the students and say, would you like your theses to be read and used and so on, most students will say yes. Some will be a little bit frightened, and but they won’t in science and medicine certainly say, I don’t want people to read my theses because it’s my intellectual property. I appreciate that in some disciplines a thesis is the precursor of a book or whatever, and I’m not going to comment on that. I’m going to talk about fact-rich disciplines where these facts are valuable for the world. So the negotiation is with the student of the university and not with some mega-corporation.

Benson: Except if they have published that thesis then sometimes they are allowed to put it into the repository, and sometimes they’re not, and sometimes they’re forced to embargo it and all sorts of other things. So again, comes in the publisher where, as you mention copyright resides with the author of it. Quite often, we’re asked to transfer it away, if we want to do things with and disseminate it, which is the beauty of the repository, right, in that we have control over that until and unless we sign away our contract.

Murray-Rust: Indeed. So we’ve got an incredibly dysfunctional system which was never designed. If somebody said, let’s spend twenty billion, with a “b,” dollars a year paying mega-corporations to stop us having access to our scholarly knowledge, you wouldn’t get many votes for that, but that is the position at the moment, and we’ve got to get ourselves out of it. So universities have got to realize that this is their material, and it is not the publisher’s material. If the publisher provides a valid service, fine. It needs to be a service which is judged in the public arena for value for money, which it isn’t at the moment, but at the moment, it’s simply vanity publishing where you’re paying, it cost five thousand dollars, I was told today, to publish a scientific communication with Nature Springer, and that is simply for the glory of having the Nature label on the publication. So the cycle has got to be broken.

Benson: Well, the most vicious part of the cycle, as it’s been explained to me, is that I’m the one doing the labor, right, I’m the one doing the hard work of the research and the writing and and editing and then the folks who are involved later on are my peer editors, who are also often unpaid.

Murray-Rust: Yep.

Benson: And doing that hard labor, and then you might have someone getting paid, the chief editor of the journal, but they’re quite often not paid a lot, and you know, maybe in the sciences, they’re paid a lot more, but in humanities, in library science, they are often paid very little, and then you have the publisher, who is just making all the money and off of the sweat and labor of our work, and then guess what? They’re selling it back to me. They’re selling my work back to me through my library who’s paying for the subscription. It just seems ridiculous when you think of it that way. When you break it down in that way, you’re paying someone for the things that you’re doing for free? It doesn’t make any sense. It’s completely illogical.

Murray-Rust: Absolutely. You’ve given a brilliant exposition of this dystopia. The question is, so nobody designed it. We’ve fallen into this by, you know, no point in working out how we fell into it, but it was mainly through inaction and people not thinking ahead, coupled with what I would call twenty-first century corporate electronic greed, you know, to control resources, because it’s incredibly cheap and easy to control electronic knowledge and it is very difficult to get out of this system.

So universities have got to wake up to the fact that this is the wrong way to doing things, and it’s unjust. Then they’ve got to work out how they get out of it. I’ve got some ideas how you get out of it, but they’re not, you know, they’re not guaranteed to work, but until the universities recognize this, it’s going to be incredibly difficult for people outside the system to change.

Benson: Well, I’m very open to your ideas, and, you know, there have been some protests where journal editors have resigned en masse, from Elsevier, for instance, and said, we’re just, we’re done with this system, it’s corrupt. What suggestions do you have for open access advocates?

Murray-Rust: So the first thing, I think, is that we should take this discussion outside the walls of academia. Every time somebody graduates in a university and goes into the outside world, as it were, they realize what they’re losing. They’re losing access to all this knowledge, and they don’t deserve this loss. We have educated them to be modern citizens who use knowledge for their occupations, who want to improve the world and so forth, and we’re saying to them, after you’ve left university, we don’t care about your access to knowledge. So I think we need to take it out to citizens to say, you are paying this huge amount of money. So actually, the world spends five hundred billion, with a “b,” dollars on publicly funded research, and most of this is not actually used properly. About eighty five percent is wasted, according to Lancet, because it’s not distributed properly. It’s duplicated. It’s poorly done, and so forth, and so we’ve, you know, we’re spending taxpayers’ money in an irresponsible manner for research. There’s a small and even more obvious case where we’re spending this twenty billion dollars to pay publishers for things that are dysfunctional and so on. So if we are able to find citizens who care about it, then, we should be able to get them to come in and start a political process of claiming back our knowledge. These are people, like people who are patients, you are suffering from a disease or your family member is, you should be able to read the papers about your disease. You may very well be volunteered to be in a clinical trial to look at this disease, to have new drug treatments or other types of therapy, and you are not allowed to read the papers about the trial that you have participated in. So that’s a particularly clear a clear example of injustice. In the world, we are threatened by or sorts of possible problems in the future, which are primarily due to climate change, but they’re also due to other things, like exhaustion of resources and so on, and we probably have solutions to these, right? To create new materials, to create new types of society, and so on, and the solutions to those may very well be in the scientific literature at the moment, but I run a small scientific startup in the U.K., Content Mine, to mine the literature, and as far as content mining is concerned, it cannot read the scientific literature unless it is open access, and in chemistry, ninety-five percent of the chemistry is forbidden by the publishers who publish that and so on. So I talked to a company last week who’s coming up with software which will predict better drugs, how would the drugs metabolize so you can come up with different therapies for different people suffering from different diseases, and they need that data in the literature, and they can’t get it, because if they have to pay forty dollars for a paper, and then on top of it, an unknown and arbitrary charge to extract the data out of the literature, so they could be looking at doubling that figure at least, and so let’s say one hundred dollars per paper and they have to read ten thousand papers, and you did a sum, that is a million dollars for being able to access the literature, to read the papers they want, ninety percent of which are actually then false positives. They’re not what they wanted, because the search engines are so inefficient and that is simply not fair to the planet.

Benson: I agree, and I think that to me, that’s one of the biggest reasons we need open access is because we need to solve the world’s problems.

Murray-Rust: Yeah.

Benson: And in order to solve the world’s problems, these are not minor problems, you know, climate change, to me, climate change is the most pressing problem that faces everyone, rich, poor, American, not American, it doesn’t matter who you are, your children and your children’s children are going to face this crisis, and it’s in large part man-created, and we need to solve it, and so to me, the only way we can solve it, is through collaboration and through knowledge sharing, and the more we shut down knowledge and and its corporate ties, and it’s too expensive to reach, the more we’re harming our own selves. I mean, we’re just harming society so.

But again, the solutions are hard. I do know open access has flourished a lot in South America because they don’t have the right under their copyright laws for interlibrary loan so they’ve created so much open access to get that knowledge shared among different libraries, and that has created societal benefits, but in America, we have the right to interlibrary loan, and so everyone, I think, gets a little complacent, right, because a lot of our libraries are so strong. University of Illinois Library is one of the strongest libraries in the world in terms of content collection and numbers, but at the same time, you know, like you said, as soon as our students graduate, they’re cut off from that collection, and so it’s great if you’re here and you’re a researcher, it’s not so great if you move away. Even if you’re a community member ,you can come in and access our collections, but if you are distant and you move away, then you’ve been shut off from those resources. So it’s a problem, and I don’t have a great solution. I mean, I think there are many possible paths, but I think you’re right, it’s going to need the general public to get involved, not just well meaning librarians such as myself.

Murray-Rust: Absolutely agree with that, and thanks for bringing up South America, my codirector, Cesar, is from Chile, and we are actually really looking at South America to see, and in Latin America more generally, to see if there are things that we can do which are different from what the rich West is doing. The problem, you know, with Latin America is that there’s an increasing tendency for them to adopt the western model, you know, in publishing, in western glamour journals, rather than building a Latin American approach to this, which would be fairer because there is a culture in Latin America that you do research no necessarily for your glory, but for the benefit of the community, and I think that’s stronger there than it often is in parts of the West.

So if, you know, the technology is there to support this, but the politics isn’t near it there.

Benson: Well, my father is actually a doctor, and I asked him once why he got into the specialty that he’s in because he’s an ontological urologist. He does cancer. He’s a cancer researcher, and he told me specifically that he wanted to help people and cure the disease, and that has been the driving force behind his research, and he’s discovered new genes that are cancer-causing genes and things like that, but he has always been motivated by helping society, and I think that is what I think doctors should be motivated by.

Murray-Rust: Agreed.

Benson: But I also agree that even in library science I am motivated by helping the general public understand copyright law, which is part of the reason I do this podcast. It’s not aimed only at experts. It’s aimed at anyone who’s interested, because I think we all need to understand the system that often is corrupt, and I think that, I hope that more and more individuals who are just trying to gain information and are being shut off and cut off from these sources of information will understand that this is this is very much an issue. This is a problem. This is a world-wide problem, and we really need to solve this or else, you know, the only people who are going to suffer are the masses. We ourselves as a society are going to suffer.

Murray-Rust: Agreed.

Benson: So unfortunately, you know, getting a mouthpiece for that particular issue is sometimes hard. It’s a little harder to get, get it really to be understood by people, but I think, you know, open educational resources, I think we’re making some headway there. I think students are getting fed up with having to choose between eating and reading their books and paying those exorbitant prices, and I think more and more faculty members are seeing the plight that their students are suffering and are understanding that this is an issue. So I think that’s one area where we might be able to get students who are younger and more vibrant and more politically active to get involved, and maybe it can spiral out from there to a more global movement.

Murray-Rust: I completely agree, and, you know, one of my privileges has been to be funded by the Shuttleworth Foundation, I’m a fellow Shuttleworth, and some of my colleagues are involved in open educational resources, particularly David Wiley and Kathy Fletcher, and they are developing books at cost price, you know, which are, you know, twenty fifty times cheaper than the commercial alternatives, and that’s is the way that I think that we start to engage students at an early stage, where you say, look, we want your education to be cost effective, and one way of doing this is to bring in resources which are high quality, which are sharable, and you as a student are actually part of this process. Open education is not us giving you that, but here you are as a student, I’m part of your education is to learn how we can change the future by carrying collaborative operations of this sort. So I think if we start this sort of process at the undergraduate level, make people aware that this is an issue which they, at least in part, have inherited and own and very probably have solutions to that we haven’t thought of.

Benson: Yeah, I think that really, when they say that children are our future, it’s so true. I’ve been really impressed, for instance, lately, with the motivation of the students in combat and gun violence in the U.S.

Murray-Rust: Exactly.

Benson: I have seen they are just so articulate, and they’re so passionate, and they are just wonderful future leaders, and I think that if we can get those same voices on board with challenging the current scholarship system, then maybe we can make some headway, but you know, it’s harder to get them involved and to get them aware of the issue, it seems, than something that hits them really close to home. I think educational resources does hit them close to home.

Murray-Rust: Agreed.

Benson: So I think that’s one of the ways in, so I’m hoping that this movement takes off, and I know we just got some funding from Congress, five million dollars for open educational resources in the U.S. Which five million dollars sounds like a lot, but I’m sure it’s not in the realm of what we really need in terms of support, but it’s a good step in the right direction, and I’m really heartened by that, and I hope that that can further this movement and really get more and more young voices involved so.

Well, it is been so much fun talking to you, and you have so many different experiences to share, and I hope that people will check out your website. I’ll link to it, and you know, go to see your talks. I’ve seen you talk at IFLA, and it was really wonderful, and I know you’re constantly lecturing around the world so.

Murray-Rust: Well, no, occasionally, it’s really valuable to me because this allows me to talk naturally, and I come up with ideas even during the last half hour, which I only get because I’m talking, and I’m relaxed, and thinking of, you know, how we take things forward so, it’s wonderful to have this, and to capture it, you know, so efficiently on podcast and so on, and I look forward to being able to share this with the world.

Benson: Yes, and I hope you do. Definitely tweet it out, and we’ll hopefully get some new listeners, so thanks for being with me today. I hope you enjoy the rest of your stay in chilly Champaign-Urbana. It’s April, and it’s really cold, but thank you so much for visiting today

Murray-Rust: And thank you.



Shuttleworth Foundation site:

Find out more about ContentMine at

Music credit: