Síndrome+de+Cockayne+(Gen+ercc6)

//WIKI ENTREGADA//

1. INTRODUCCIÓN
toc La denominación Síndrome de Cockayne comprende varias enfermedades monogénicas autosómicas recesivas. Su prevalencia en Europa es de 1 de cada 200.000 nacidos vivos.1] Esta prevalencia es mayor en comunidades donde se dan circustancias de endogamia o consaguinidad como en una comunidad religiosa Druze del norte de Israel donde se observaron seis casos simultáneos.2] Todas ellas están relacionadas con deficiencias en los sistemas de reparación de ADN. La más frecuente es la de tipo II (80 % de los casos 3]) que tiene mutada la proteína CSB (//Cockayne Syndrome B//) codificada por el gen //ercc6,// situado en la localización cromosómica 10q11 [|OMIM #133540.] De aquí en adelante se nombrará indistintamente CSB como ercc6 y viceversa. El 20% restante presenta alteraciones en la proteína CSA (parte de un complejo ubiquitín-ligasa 3 que ubiquitiniza a CSB) [|OMIM #216400] o son grupos de complementación de otra enfermedad relacionada con disfunciones en la reparación del ADN, la Xerodermia pigmentosa 4].

1.1 Manifestaciones clínicas
Entre las manifestaciones clínicas de esta enfermedad destacan retardo en el crecimiento, envejecimiento prematuro, ligero retraso mental, deterioro progresivo de la capacidad de caminar y temblores. Asimismo las personas que lo padecen muestran una nariz picuda, prognatismo mandibular, leve pérdida de audición y cataratas. Pueden presentar calcificaciones y atrofia cerebrales así como sensibilidad extrema de los fibroblastos de la piel a las radiaciones ultravioleta. La exposición a la luz ultravioleta es especialmente nociva para estos pacientes debido a su déficit en la capacidad de reparar el ADN. La gravedad de los síntomas de las enfermedades progeroides (que llevan consigo un envejecimiento acelerado) y el hecho de que suponen un excelente modelo de estudio del envejecimiento 4] han hecho no pasar desapercibida esta enfermedad entre la comunidad científica.

1.2 Antecedentes: características bioquímicas y moleculares
Bioquímicamente, CSB es una proteína de 1493 aminoácidos en la que destacan un dominio central con función ATP-asa, otro dominio de carácter ácido y dos señales de localización nuclear. No se ha descrito con precisión la función exacta de la proteína CSB en la célula. No obstante, parece clara su implicación fundamental en la elongación de la transcripción (presenta interacciones con las ARN polimerasas 1 y 2), la reparación de ADN acoplada a la transcripción TCR (encargada de la reparación de genes activos) 3] y la reparación de ADN por excisión de base BER (que sustituye bases que han sufrido oxidación).4] Presenta asimismo capacidad para inducir superenrollamientos in vitro de la hélice de ADN, por lo que también se ha propuesto su papel en la remodelación de la cromatina, como así lo tienen otras proteínas muy emparentadas con ella 3]. Respecto a su papel en el proceso TCR se ha descrito en un ensayo //in-vivo// que la expresión exógena de nuestra proteína en células humanas carentes de la misma aumenta la transcripción de forma muy significativa de genes dañados por la presencia de //nicks// en la cadena codificante (la que no se transcribe) 5]. En relación a la reparación de ADN en casos de estrés oxidativo se observa que en el ADN mitocondrial de células carentes de CSB se acumula un exceso de 8-oxoguanina y 8-oxoadenina unido a una disminución de la cantidad de la isoenzima mitocondrial de la 8-oxoguanina glicosilasa encargada de la excisión de esta base deteriorada que da inicio a la reparación por excisión de base BER. En ensayos de //microarrays// se ha visto una correlación significativa además entre la ausencia de CSB y la regulación a la baja de la expresión, no solo de este gen de la glicosilasa, sino de otros muchos genes relacionados con la respuesta al estrés oxidativo como chaperonas y ciclinas encargadas de la detención del ciclo celular. Estas ausencias se recuperaban con la expresión exógena de CSB. 6] El daño oxidativo es una de las causas más consolidadas a las que se achaca el envejecimiento celular y enfermedades asociadas a este como el Parkinson.

1.3 Antecedentes: mutaciones relacionadas con la enfermedad
Curiosamente, se han descrito casos de pacientes que presentaban una deleción total del gen y su fenotipo se correspondía más con enfermos de Xerodermia pigmentosa, sin signos de progeria o de retraso mental.7] Por otro lado, pacientes con la modalidad grave de la enfermedad pueden presentar sustituciones en aminoácidos concretos o, en su modalidad más grave, inserciones de un transposón //piggyback// que da lugar a una proteína mayor de lo normal.8] Se ha propuesto 3] que CSB puede jugar un papel en prevenir la ubiquitinación de la subunidad mayor de la ARN polimerasa II en caso de daños en el ADN que provocasen que la polimerasa se atascase (haciendo un papel homólogo a //Rad26// en Saccharomyces) en contraposición a otra proteína que promueve su degradación 9]10]. CSB ayudaría además al desenganche de la polimerasa del ADN dañado. Si ninguno de estos dos procesos se lleva a cabo (ni la ARN polimerasa se desengancha ni se degrada) las consecuencias pueden ser peores que si simplemente es degradada. Esto puede suceder si CSB está presente pero es incapaz de realizar su función y a su vez secuestra a la ARN polimerasa. Esta hipótesis cuadraría con el desarrollo de la enfermedad de Cockayne en pacientes con deficiencia de CSA, una proteína encargada al fin y al cabo de facilitar la degradación de CSB.

1.4 Objetivos, métodos, logros
El objetivo del trabajo es, mediante el uso de herramientas bioinformáticas, caracterizar y obtener nueva información sobre dominios, funciones e interacciones de la proteína CSB. Para ello haremos uso de algoritmos y bases de datos que serán descritas en el apartado de materiales y métodos. La reparación acoplada a la transcripción es un proceso evolutivamente conservado desde bacterias, por lo que la búsqueda de ortólogos es una herramienta muy útil que aprovecharemos para determinar cuales son los dominios importantes en nuestra proteína. Como hemos comentado además, la enfermedad está causada principalmente por la expresión de una proteína no funcional, más que por la ausencia de la misma. Esto hace al gen CSB ideal para el propósito que nos ocupa.

Finalmente se determinó la existencia de dos dominios con una clara implicación en la remodelación de la estructura del ADN conservados, así como el plegamiento 3D de esa región. Faltan datos de interacción y estructurales para determinar si el sistema de regulación Rad26/Def1 está conservado en humanos. Se ha propuesto además que pueden existir fallos en la anotación de dos secuencias ortólogas de este gen en //Polyspondillium pallidum// y //Dictyostellium fasciculatum.//

2. MATERIALES Y MÉTODOS
Se realizó una búsqueda general de información acerca de la enfermedad escogida. Para ello se empleó la revista "Genes and Disease" perteneciente al NCBI, en ella se recoge información sobre múltiples genes y su implicación en enfermedades, las cuales se clasifican en función del tejido, órgano o sistema al que afectan. Tras la elección del tema principal de este artículo en "Genes and Disease" ( [|Cockayne Sindrome. Genes and Disease.] ) accedimos a la ficha de OMIM del síndrome de Cockayne [|OMIM #133540]. OMIM es una base de datos que contiene fichas de enfermedades de herencia mendeliana en humanos, cada ficha contiene información acerca de el tipo de herencia, características clínicas, localización cromosómica, literatura relacionada y otros muchos datos de interés. Tanto en "Genes and Disease" como en OMIM encontramos el nombre del gen alterado en la enfermedad.

2.1 Búsqueda de secuencias (bases de datos)
Conocido el gen implicado en el síndrome de Cockayne (ERCC6) se procede a buscar secuencias de humanos y otros organismos (posibles ortólogos) del mismo. Las proteínas con la misma nomenclatura que ERCC6 son seleccionados como posibles ortólogos. Para ello se recurre a la base de datos Uniprot [|ERCC6 Uniprot] (fusión de las bases de datos trEMBL, Swiss-Prot y PIR) que contiene fichas de proteínas, sus secuencias, características relevantes así como enlaces a otras bases de datos (por ejemplo a bases de datos de ADN de las que podemos extraer su CDS) y otras herramientas bioinformáticas. Uniprot permite realizar búsquedas por proteína, gen, organismo, dominios, interacciones... Las fichas que aparecen en Uniprot pueden estar revisadas (pertenecientes a Swiss-Prot) o traducciones automáticas de genes putativos (fichas pertenecientes a trEMBL, una base de datos en la que las fichas no están revisadas por expertos, por lo que aporta menos fiabilidad que Swiss-Prot). Salvo para la secuencia de humanos se tuvo que recurrir a secuencias trEMBL.

Más adelante, haciendo uso de herramientas de alineamiento de secuencias que serán explicadas, hallaremos otros ortólogos que a pesar de compartir una similitud importante en cuanto a secuencia no tienen la denominación ERCC6.

2.2 Comparación de secuencia con los posibles ortólogos (matrices de puntos)
A continuación comparamos las secuencias aminoacídicas y de los distintos CDS de las proteínas de otros organismos con la misma denominación que nuestra proteína de interés de humano. Los compararemos con la secuencia de humanos para determinar cuales de ellas son ortólogas y hacernos una idea de donde se encuentran los dominios más conservados. Para ello usamos la utilidad de matrices de puntos del programa libre [|UGENE]. Esta utilidad nos permite comparar dos secuencias de forma gráfica estableciendo un tamaño de ventana (número de nucleótidos o aminoácidos que deben tener un determinado porcentaje de identidad para considerar igual una región) y el porcentaje de identidad necesario para que estas ventanas sean consideradas positivas (si lo son aparecerá una pequeña diagonal con el tamaño de la ventana). Los parámetros utilizados fueron:
 * Ventana 25 caracteres; Identidad 75%. Estos son unos parámetros de comparación poco exigentes que nos permitiran observar grosso modo si dos secuencias son homólogas aunque estas se encuentren algo alejadas en la evolución. En organismos cercanos se observará prácticamente la diagonal completa. En organismos lejanos se observará qué regiones conservan una cierta semejanza a lo largo de las generaciones
 * Ventana 25 caracteres; Identidad 100%, Ahora subimos hasta el 100% el porcentaje de identidad requerido. De este modo nos haremos una idea de las regiones de la estructura primaria que se encuentran más conservadas. Esto nos puede ayudar a la hora de caracterizar regiones importantes para la función de la proteína.

También se usó esta herramienta de UGENE para comparar DEF1 de levaduras con BRCA1 de humanos, en condiciones de baja exigencia, con los parámetros ventana 15 e identidad 70%.

2.3 Búsqueda de alineamientos locales (Blast)
El siguiente paso es hacer alineamientos múltiples locales para encontrar otras proteínas que a pesar de no tener la denominación ERCC6 son muy semejantes en secuencia y por tanto también potenciales ortólogos. Encontraremos también proteínas que compartan solo fragmentos determinados de la secuencia, lo que puede aportarnos información acerca de la función y evolución de regiones concretas de nuestra proteína. Para ello usaremos la herramienta BlastP que nos ofrece el [|NCBI].

Realizaremos tres búsquedas. La primera comparará la secuencia de humano con la base de datos UniProt utilizarando los parámetros por defecto de Blast. Será una búsqueda relativamente restrictiva ya que utiliza la matriz de puntuación BLOSUM62. Aquí podremos comprobar, gracias a los valores de e-value que encontremos, si las secuencias comparadas antes mediante las matrices de puntos son realmente ortólogas y encontrar algunas nuevas. Más información nos dará la segunda búsqueda que realizaremos usando la matriz de identidad BLOSUM45. Esta búsqueda incluirá ortólogos más alejados y nos dará información acerca de las regiones que estén más conservadas. Finalmente (aportación personal Rafa) haremos otro Blast comparando únicamente con el reino fungi para estudiar si existe la similitud que se propone en la introducción entre CSB y Rad26 de levaduras, implicados ambos en procesos de transcripción y con interacciones con la ARN polimerasa II. Este Blast, al comparar genes de reinos diferentes, también se realizará haciendo uso de BLOSUM45. Los parámetros utilizados son los siguientes:

//Tabla 1: Parámetros utilizados en las tres búsquedas con Blast//
 * = **Búsqueda** ||= **Base de datos** ||= **Matriz de puntuación** ||= **Tamaño de palabra** ||= **Penalización huecos** ||= **e-value máximo** ||
 * = **1** ||= Uniprot ||= BLOSSUM62 ||= 3 ||= 11 - 1 ||= 10 ||
 * = **2** ||= Uniprot ||= BLOSSUM45 ||= 3 ||= 15 - 2 ||= 10 ||
 * = **3** ||= //Fungi// (Uniprot) ||= BLOSSUM45 ||= 3 ||= 15 - 2 ||= 10 ||

Se hicieron otras búsquedas con Blast. Se usó tBLASTn para encontrar secuencias de CDS no disponibles por nombre, introduciendo como //query// la proteína sí encontrada y comparando con la base de datos de secuencias del organismo en cuestión. También se buscó por BlastP y por tBLASTn un análogo de humanos del gen DEF1 de //Saccharomyces cerevisiae,// antagonista de Rad26, el homólogo del ERCC6 humano. Por último se usó tBLASPara la búsqueda de CDS se usó BLOSSUM62 con los parámetros de la búsqueda uno y se exigió una identidad y una cobertura de secuencia total. Para la búsqueda de DEF1 se usó una BLOSSUM45 con los parámetros de las búsquedas dos y tres, y como base de datos la de humano.

2.4 Alineamiento múltiple y árboles filogenéticos (ClustalX y Treeview)
Lo siguiente es usar el programa [|ClustaIX] para comparar las secuencias de proteínas de los ortólogos encontrados. El programa genera alineamientos múltiples en los que podremos ver si existen dominios más conservados y otras zonas en las que se aprecia un mayor cambio de residuos. En lugar de comparar todos con la secuencia de humano, la comparación será de todos contra todos. Después de hacer el alineamiento con Clustal se genera un archivo de tipo aln. Para abrir este archivo usamos también el programa [|UGENE], usado ya para las matrices de puntos y de el se extrajeron las figuras presentadas. No obstante, para poder presentar el alineamiento en formato de texto enriquecido tuvimos que usar [|Bioedit], ya que UGENE no presenta esta función. Estos alineamientos presentan señalados en amarillo los dominios más conservados.

Se realizaron tres alineamientos múltiples:
 * Secuencias cercanas: //Homo sapiens, Mus musculus, Bos taurus, Gallus gallus, Danio rerio, Apis florea.// Utilizado para descartar motivos de alta ocurrencia de Prosite no conservados, ya que presumiblemente los sistemas moleculares en los que interviene nuestra proteína estarán conservados.
 * Hongos: //Homo sapiens, Candida albicans, Schyzosaccharomyces pombe, Saccharomyces cerevisiae, Dictyostellium fasciculatum y Pol////yspondillium pallidum.// Utilizado para ver cuales son las regiones más conservadas (dominios comunes) y la conservación de los aminoácidos mutados en casos de Síndrome de Cockayne.
 * Todas las anteriores. De donde se obtuvo el archivo con extensión dnd para establecer el árbol filogenético, que abrimos mediante el software [|Treeview] y comparamos con la //Taxonomic lineage// de Uniprot.

2.5 Análisis de dominios y motivos conservados. Familias. (Pfam, Prosite)
Posteriormente se analizarán las características estructurales de nuestra proteína de referencia. En primer lugar realizaremos una búsqueda de dominios conocidos de nuestra proteína empleando para ello la base de datos [|Pfam]. Se trata de una base de datos que contiene alineamientos múltiples proteínas y agrupa en familas aquellas que contengan dominios comunes. En el apartado "VIEW A SEQUENCE" introducimos el "accession number" de nuestra proteína de referencia([|Q03468] ), obteniendo un esquema de los principales dominios conocidos que contiene nuestra proteína ( [|Pfam ERCC6]). Se nos presenta un esquema de nuestra proteína en el que se representan los diferentes dominios identificados, al hacer click en cualquiera de ellos se nos muestra una ficha que contiene información sobre dicha familia de dominios. En el primer apartado de esta ficha "Summary" obtuvimos información general acerca del dominio. ([|Ejemplo SNF2]). En "[|HMM logo]" obtuvimos un alineamiento múltiple en formato logo de todos los dominios anotados como SNF2 o Helicasa C, donde comprobamos cuales eran los aminoácidos más conservados y posiblemente encargados de la catálisis.

A continuación se utilizó la base de datos [|Prosite] para obtener información acerca de los motivos de secuencia de ERCC6, sin filtrar los motivos de alta ocurrencia. Se analizó qué motivos de la relación obtenida estaban conservados en el alineamiento múltiple de especies cercanas anterior. Los que no estaban conservados fueron descartados como candidatos a motivos reales. Tampoco se observaron Se elaboró una lista de candidatos probables con aquellos que, además de estar conservados, no estaban contenidos dentro de los dominios SNF2 y Helicasa C y estaban flanqueados por regiones de no demasiada conservación.

2.6 Estructura 3D (Swiss-Model, Rasmol)
Luego analizaremos la estructura 3D de nuestra proteína. Para ello se consultó su ficha de [|Uniprot] y tras comprobar que no existían enlaces a [|PDB] se decidió utilizar la herramiento [|Swiss-Model] para predecir su estructura. [|Swiss-Model] predice la estructura por homología. Proporcionando a [|Swiss-Model] la secuencia de aminoácidos se obtienen predicciones de la estructura de algunos fragmentos de la secuencia por homología con otras secuencias: [|predicción de estructura.] Una vez nos mandaron al correo la predicción descargamos el archivo pdb y lo abrimos con [|Rasmol]. Este programa es un visor de la estructura 3D de proteínas en el que podemos regular parámetros como el tipo de vista o el color. Seleccionaremos por separado los grupos de aminoácidos que constituyen los dominios anteriormente hallados y señalaremos su posición en la proteína para ver si tienen plegamientos independientes. Para ello basta con usar el comando //select//.

Se pretendía mirar si los motivos putativos predichos por Prosite estaban en zonas externas de la proteína, pero estos se encontraban fuera de la zona de estructura 3D predicha.

2.7 Interacciones de proteínas (STRING)
Se utilizó la base de datos de interacciones [|STRING] para determinar si la subunidad mayor de la ARN polimerasa II humana tenía relación descrita con alguna ligasa de ubiquitina, que pudiera llevar a cabo la función homóloga de Def1 en levaduras.

2.8 Análisis de la frecuencia aminoacídica (Código propio perl)
En el anexo nombrado como frecuencia aminoacídica se encuentra la discusión sobre el resultado de utilizar un código de Perl que calcula la frecuencia absoluta y relativa de cada aminoácido de la secuencia primaria de nuestra proteína //ercc6.//

3.1 Existen secuencias ortólogas conservadas en prácticamente todos los eucariotas que comparten dos regiones centrales muy conservadas
Como era de esperar de proteínas que participan en procesos de reparación del ADN, su secuencia se encuentra muy conservada a lo largo de la evolución eucariota ya que son procesos cruciales para la supervivencia. Hemos obtenido una buena cantidad de ortólogos tanto mediante búsqueda directa como por Blast. Hemos seleccionado los siguientes, que representan una muestra variada de diferentes organismos situados en distintas ramas del árbol filogenético. Tenemos mamíferos (ratón, toro), aves (gallo), anfibios (//Xenopus),// peces (pez zebra), insectos (mariposas y abejas) y una buena cantidad de hongos.

Los hongos nos parecen especialmente interesantes por su lejanía en la evolución (deben mantener solo aquellas partes de la secuencia realmente importantes), por la facilidad de trabajar con ellos como organismo modelo (//cerevisiae, pombe, etc.)//. y por el sistema de regulación de la ubiquitinización de la ARN polimerasa II descrito en //cerevisiae// en el cual se encuentra implicado el supuesto ortólogo del gen CSB de humano.

||= ||= 0.0 B62 ||= 100 ||= 79 || ||=  ||= 0.0 B62 ||= 100 ||= 77 || ||=   ||= 0.0 B62 ||= 96 ||= 60 || ||= ||= 0.0 B62 ||= 57 ||= 66 || ||= - ||= 0.0 B45 ||= 45 ||= 58 || //Tabla 2: Las secuencias de presuntos ortólogos estudiadas son las siguientes. En la tabla se incluye el Accesion number, el método con el que se buscó la secuencia, la fiabilidad y la cobertura de secuencia del alineaminto local con Blast, el porcentaje de identidad. También se incluyen enlaces a la ficha de Uniprot o NCBI correspondientes y al artículo de la Wikipedia del organismo.//
 * = **Gen** ||= **Organismo** ||= **Accession Number** ||= **Búsqueda sec. proteica** ||= **Búsqueda CDS** ||= **Dot plot proteico** ||= **Dot plot nucleotídico** ||= **BLAST e.value** ||= **Query coverage** ||= **Identidad** ||
 * = ERCC6 ||= //[|Homo sapiens sapiens]// ||= [|Q03468] ||= Por nombre ||= Por nombre ||= NA ||= NA ||= NA ||= NA ||= NA ||
 * = ERCC6 ||= //[|Mus musculus]// ||= [|F8VPZ5] ||= Por nombre ||= tBLASTn ||= [[file:bioinfo-btg12-grupo15/ratón1.png|V:25 I:100]]
 * = ERCC6 ||= //[|Bos taurus]// ||= [|E1BFL2] ||= Por nombre ||= tBLASTn ||= [[file:bioinfo-btg12-grupo15/btaurus25-100.png|V:25 I:100]]
 * = ERCC6 ||= //[|Gallus gallus]// ||= [|E1BYA8] ||= Por nombre ||= tBLASTn ||= [[file:bioinfo-btg12-grupo15/Ggallus25-100.png|V:25 I:100]] ||= [[file:bioinfo-btg12-grupo15/GgallusCDS25-100.png|V:25 I:100]] ||= 0.0 B62 ||= 99 ||= 65 ||
 * = ERCC6 ||= //[|Danio rerio]// ||= [|F1RDN1] ||= Por nombre ||= tBLASTn ||= [[file:bioinfo-btg12-grupo15/Drerio25-100.png|V:25 I:100]]
 * = ERCC6 ||= //[|Xenopus tropicalis]// ||= [|XM_002939746] ||= BLASTp (fragmento) ||= NCBI ||= [[file:bioinfo-btg12-grupo15/xenopusp1.png|V:25 I:100]]
 * = ERCC6 ||= //[|Heliconius numata numata]// ||= [|G3KAN7] ||= Por nombre (fragmento) ||= tBLASTn ||= [[file:bioinfo-btg12-grupo15/2575heli.png|V:25 I:75]] ||= [[file:bioinfo-btg12-grupo15/numatacds.png|V:25 I:75]] ||= 1e-104 B45 ||= 20 ||= 55 ||
 * = ERCC6 ||= //[|Apis florea]// ||= [|XP_003698629.1] ||= BLASTp ||= NCBI ||= [[file:bioinfo-btg12-grupo15/floreap1.png|V:25 I:100]]
 * = ERCC6 ||= //[|Dictyostelium fasciculatum]// ||= [|F4Q3Z2] ||= Por nombre ||= - ||= [[file:bioinfo-btg12-grupo15/dictiop.png|V:25 I:75]] ||= - ||= 6e-108 B45 ||= 30 ||= 60 ||
 * = ERCC6 ||= //[|Polysphondylium pallidum]// ||= [|D3B1M4] ||= Por nombre ||= - ||= [[file:bioinfo-btg12-grupo15/polpal|V:25 I:75]] ||= - ||= 0.0 B45 ||= 52 ||= 55 ||
 * = RHP26 ||= [|//Schizosaccharomyces// //pombe//] ||= [|Q9UR24] ||= BLASTp ||= NCBI ||= [[file:bioinfo-btg12-grupo15/pombep.png|V:25 I:75]] ||= [[file:bioinfo-btg12-grupo15/pombe.png|V:25 I:75]] ||= 1e-164 B45 ||= 47 ||= 59 ||
 * = RAD26 ||= //[|Candida albicans]// ||= [|Q59X70] ||= BLASTp ||= NCBI ||= [[file:bioinfo-btg12-grupo15/calbp.png|V:25 I:75]] ||= [[file:bioinfo-btg12-grupo15/calb.png|V:25 I:75]] ||= 0.0 B45 ||= 46 ||= 49 ||
 * = RAD26 ||= //[|Saccharomyces cerevisiae]// ||= [|P40352] ||= BLASTp ||= NCBI ||= [[file:bioinfo-btg12-grupo15/cerep.png|V:25 I:75]] ||= [[file:bioinfo-btg12-grupo15/cere.png|V:25 I:75]] ||= 3e-169 B45 ||= 43 ||= 58 ||

Mediante las matrices de puntos comprobamos que todos los supuestos ortólogos encontrados por nombre comparten efectivamente la identidad de secuencia suficiente como para ser considerados como tales. Todas las especies, incluso las más alejadas (insectos y hongos) conservan dos dominios centrales que en la secuencia de humanos corresponden a las posiciónes 500 - 750 y 900 - 1025. Estas secuencias son también las más conservadas si subimos la exigencia del alineamiento en secuencias de organismos más cercanos como mamíferos o aves (Figuras 1 y 2).



**3.2 Los alineamientos múltiples muestran una gran conservación de la secuencia más allá de las dos regiones centrales en especies animales**
El resultado del alineamiento con las secuencias pertenecientes al reino animal (hasta //Apis florea//) presenta alineamientos significativos en zonas pertenecientes no solo a los dos dominios centrales que observamos mediante las matrices de puntos. Estos se encuentran especialmente conservados pero también hay secuencias parecidas en las zonas amino y carboxilo terminal (Figuras 3 y 4). No se usaron en el alineamiento ni //Xenopus tropicalis// ni //Heliconius numata// por ser fragmentos. El alineamiento completo puede ser consultado en. .





Esto viene a confirmar el hecho de que estas secuencias son ortólogas. Más allá de compartir los dos dominios putativos de alta conservación centrales comparten otras regiones con una identidad suficiente como para pensar que tienen estructuras similares. //Apis florea,// un insecto, y la especie más lejana a la humana de este alineamiento conserva también regiones fuera de los dominios centrales. Estas regiones pueden ser interesantes y responsables entre otras cosas de interacciones con otras proteínas que controlen su actividad dentro de la célula (por ejemplo sitios de fosforilación).

**3.3 En hongos se conservan los dos dominios putativos y algunos motivos pequeños**
El alineamiento en hongos sigue revelando la existencia de los dos dominios putativos antes comentados (Figura 5). Asimismo se encuentran otros motivos pequeños conservados interesantes. Cercano al extremo amino terminal encontramos una región pequeña pero conservadas con residuos de treonina (Figura 6). Esta zona no obstante es la menos conservada, presentando una mayor conservación el extremo carboxilo terminal. Sería interesante ver si esto se trata de un sitio de fosforilación y ver si está expuesto dentro de la estructura terciaria. El alineamiento completo puede ser consultado en.





Destacan de estos alineamientos múltiples una serie de //gaps// de tamaños regulares que podrían tratarse de intrones mal anotados como tales ya que estas secuencias están traducidas directamente (base de datos trEMBL). Este tema se tratará más adelante en una aportación personal.

3.4 Los aminoácidos cuya transición da lugar al desarrollo del síndrome de Cockayne se encuentran especialmente conservados en la evolución
En la figura 7 se muestran las transiciones de aminoácidos registradas hasta el momento. De los alineamientos múltiples se ve que las mutaciones responsables del síndrome de Cockayne siempre se encuentran en posiciones mas retrasadas del aminoácido 600. Esto es consistente con lo obtenido de los alineamientos múltiples, donde el extremo amino terminal es el menos conservado. Los aminoácidos con variaciones naturales descritas en las primeras posiciones no se encontraban conservadas. Sin embargo, todos los aminoácidos cuyas variaciones que dan lugar al síndrome se encuentran conservados en la totalidad de los ortólogos. Esto sucede así también para casi todas las variables naturales posteriores al aminoácido 600. (Aportación Juan)



3.5 Tres aminoácidos con modificaciones postraduccionales descritas están especialmente conservados
Se analizaron posteriormente los sitios con modificaciones postraduccionales descritas en Uniprot. De entre ellos se conservan principalmente tres, dos fosforilaciones en las serinas 429 y 430 y una lisina metilada en la posición 448. Poco más podemos comentar de ellas ya que fueron descritas en artículos de proteómica. Las fosforilaciones se detectaron mediante espectrometría de masas 11] y la metilación mediante un ensayo con una metilasa típica de histonas sobre un array proteico.12] El modelo de estructura 3D obtenido por Swiss-Model no incluye esta región de la proteína, lo que nos hace imposible analizar si la zona en la que se encuentra esta expuesta o no o determinar mediante un ensayo de interacción qué quinasa o metilasa es la que lleva a cabo la modificación.

Consideramos como posibles sitios de modificación no anotados los motivos de alta ocurrencia de Prosite que estuvieran conservados en especies cercanas en el alineamiento múltiple en zonas no pertenecientes a los dos dominios centrales (extremos amino y carboxilo) donde no se viera una gran conservación en los alrededores. Encontramos varios aminoácidos candidatos que cumplían estos requisitos (Tabla 3). Todos ellos son sitios de fosforilación. Prosite nos proponía también la existencia de muchos sitios de miristoilización pero ninguno de ellos estaba lo suficientemente conservado (ni siquiera en ratón y toro). Consideramos que esta es una modificación postraduccional suficientemente radical como para tener tal importancia funcional como para estar conservada. No comprobamos los motivos de N-glicosilación considerando que nuestra proteína es nuclear.

//Tabla 3: Aminoácidos aún no anotados que podrían estar fosforilados.//
 * = **Aminoácido** ||= **Posición** ||= **Modificación** ||
 * = Serina ||= 322 ||= Fosforilación caseína quinasa 2 ||
 * = Serina ||= 367 ||= Fosforilación caseína quinasa 2 ||
 * = Treonina ||= 377 ||= Fosforilación caseína quinasa 2 ||
 * = Serina ||= 1348 ||= Fosforilación caseína quinasa 2 ||
 * = Serina ||= 322 ||= Proteína quinasa C ||
 * = Serina ||= 1337 ||= Proteína quinasa A (dependiente de AMPc) ||

Cabe destacar, no obstante, que muchas de las modificaciones postraduccionales anotadas en el campo //Features// de Uniprot no aparecen entre las predicciones de motivo de la herramienta Prosite.

3.6 El árbol filogenético generado a partir de las diferentes secuencias de ERCC6 reproduce el proceso de evolución eucariota
Del tercer alineamiento que contenía todos los ortólogos a excepción de //Helicolius numata// y //Xenopus tropicallis// por ser fragmentos se obtuvieron los árboles filogenéticos, uno sin enraizar (Figura 8) y otro enraizado (Figura 9) definiendo como especie externa a //Candida albicans.// A grandes rasgos los árboles obtenidos son consistentes con el proceso más factible de evolución eucariota, situando lejos a las secuencias de hongos con respecto a la de humano y luego cada vez más cerca la de insectos, peces, aves y mamíferos. Llama la atención la enorme distancia que otorga el programa a las diferentes secuencias de hongos entre sí. Estos resultados concuerdan con la teoría de que este gen surgió en uno de los primeros eucariotas unicelulares, sufrió grandes variaciones, y finalmente se fijó una versión del mismo más conservada para los organismos pluricelulares y vertebrados. Se muestra asimismo que las especies de hongos con secuencias de ERCC6 más parecidas a humano son //Dictyostellium fasciculatum// y //Polysphondillium pallidum.//





3.7 Un dominio ATP-asa del tipo SNF2 y otro Helicasa tipo C se conservan en todas las versiones del gen ERCC6
Mediante Pfam confirmamos que en las zonas centrales de nuestra proteína existen dos dominios conservados y de función conocida (Figura 10). El primero, centrado pero más próximo al extremo amino terminal, es un domino ATP-asa SNF2 que se ha descrito en proteínas con actividad helicasa dependientes de la energía de ATP. Esto es consistente con que a esta proteína se la relacione con procesos de elongación de la transcripción y desenganche de la ARN polimerasa. El otro se trata de un dominio helicasa C y se encuentra centrado pero más próximo al extremo carboxilo. Los dos dominios han sido encontrados juntos en más de 3500 proteínas hasta el momento y pertenecen a una misma superfamilia de proteínas que contienen motivos de lazo para unir grupos fosfato. Ambos coinciden con las regiones de alta conservación desde hongos.



En el logo del dominio Helicasa C (Figura 11) vemos una serie de aminoácidos muy conservados en todas las secuencias con ese dominio, y formarán parte de su centro activo. Se trata principalmente de residuos de glicina (que introducirán giros en la estructura) y básicos (argininas y una glutamina, solo sustituibles a veces por histidinas o lisinas). Presumiblemente estos aminoácidos cargados serán importantes en la interacción de la proteína bien con el ATP o bien con el ADN.



En el logo del dominio SNF2 encontramos también otra zona con glicinas muy conservadas y aminoácidos básicos, en este caso lisinas (Figura 12).



**3.8 Los modelos de estructura 3D obtenidos otorgan plegamientos independientes a los dominios principales**
La fidelidad del modelo obtenido mediante la herramienta Swiss-Model se encuentra apoyada por el hecho de que los dos dominios predichos por Pfam son entes autónomos dentro del plegamiento general de la proteína. El modelo recibido (Imagen 1) solo comprende desde el aminoácido 498 al 989 y el ajuste es malo en no pocos segmentos de la secuencia (Q-mean Z de -5,71). No obstante dentro de este rango se encuentran comprendidos los dominios SFN2 y Helicasa.





Se señaló de color rojo el dominio SFN2 y de color púrpura el Helicasa C tanto en un modelo con cintas como en uno de espacio completo (Imagen 2) en el que se observa que ambos dominios están situados en regiones externas de la proteína. Esto también otorga fiabilidad al modelo. A continuación se muestra (Figura 13) la alto error en angstroms predicho cometido por el modelo:



3.9 Las secuencias proteicas de //Polysphondylium pallidum// y //Dictyostelium fasciculatum// podrían estar mal anotadas
//Aportación realizada por Javier Viña González.//

Los resultados del alineamiento múltiple muestra grandes gaps si se comparan las secuencias de //Polysphondylium// y //Dictyostelium// con el resto de especies, especialmente al compararlas con la proteína humana. Al tratarse de secuencias de trEMBL, cabe la posibilidad de que se haya ignorado la presencia de intrones, que se han incluido en la proteína final como regiones traducidas, dando como resultado grandes gaps en el resto de secuencias que no aparecen en estas dos especies. Así mismo cabe la posibilidad de que se hayan ignorado exones de las secuencias de estos dos organismos, dando como resultado grandes gaps en la secuencia proteica de las dos especies a estudiar. Se comprobarán estas hipótesis mediante análisis por tBLASTn y BLASTp.

En primer lugar seleccionamos las secuencias candidatas a ser posibles exones o intrones anotados erróneamente de uno y otro organismo, las características de las mismas pueden consultarse en la tabla 4 y sus secuencias aminoacídicas pueden consultarse. Las posiciones se han tomado en referencia a la posición de los aminoácidos de cada cadena proteica, no de las posiciones del alineamiento múltiple.

//Tabla 4: características de las secuencias candidatas//
 * = **Organismo** ||= **Exón/intrón** ||= **Posiciones** ||
 * = //Polysphondylium pallidum// ||= Intrón ||= 105-126 ||
 * = //Polysphondylium pallidum// ||= Intrón ||= 481-577 ||
 * = //Polysphondylium pallidum// ||= Exón ||= 1103-1004 ||
 * = //Dictyostelium fasciculatum// ||= Intrón ||= 361-408 ||
 * = //Dictyostelium fasciculatum// ||= Intrón ||= 540-493 ||
 * = //Dictyostelium fasciculatum// ||= Exón ||= 878-879 ||
 * = //Dictyostelium fasciculatum// ||= Exón ||= 979-980 ||

Para comprobar si las secuencias están mal anotadas y existen intrones que no se han tenido en cuenta compararemos la secuencia candidata a ser intrón contra el genoma de otra especie(humano) por medio de un tBLASTn. Si encontramos coincidencias comprobaremos por qué está flanqueada la secuencia en humanos, si está flanqueada por exones podremos concluir que efectivamente es un intrón mal anotado. Los análisis de tBLASTn se realizaron en condiciones poco restrictivas al tratarse de especies alejadas (tamaño de palabra 2, BLOSUM45, existencia de gap:10, extensión de gap:3). Tampoco se filtraron las regiones de baja complejidad. Para comprobar la existencia de exones mal anotados se realizó un BLASTp de la secuencia correspondiente de humanos que coincide con el gap del organismo estudiado contra un organismo filogenéticamente cercano a este (Saccharomyces cerevisiae en el caso de //Polysphondylium// y //Dictyostelium// discoiteum en el caso de //Dictyostelium fasciculatum//). Los parámetros de búsqueda utilizados fueron tamaño de palabra 3, matriz BLOSUM62, existencia de gap penalizado con 11 y extensión del gap penalizado con 1. Los resultados obtenidos en los análisis de tBLASTn y BLASTp se muestran en la tabla 5.

//Tabla 5: resultados del tBLASTn(en intrones) y BLASTp (en exones)//
 * = **Organismo** ||= **Exón/intrón** ||= **Posiciones** ||= **Resultado** ||= **E.value** ||= **Max ident** ||
 * = //Polysphondylium pallidum// ||= Intrón ||= 105-126 ||= No se encontró similitud ||= - ||= - ||
 * = //Polysphondylium pallidum// ||= Intrón ||= 481-577 ||= No se encontró similitud ||= - ||= - ||
 * = //Polysphondylium pallidum// ||= Exón ||= 1103-1004 ||= Existen coincidencias ||= 0.1 ||= 30% ||
 * = //Dictyostelium fasciculatum// ||= Intrón ||= 361-408 ||= No se encontró similitud ||= - ||= - ||
 * = //Dictyostelium fasciculatum// ||= Intrón ||= 540-493 ||= No se encontró similitud ||= - ||= - ||
 * = //Dictyostelium fasciculatum// ||= Exón ||= 878-879 ||= Existen coincidencias ||= 3e-43 ||= 48% ||
 * = //Dictyostelium fasciculatum// ||= Exón ||= 979-980 ||= Existen coincidencias ||= 0.38 ||= 22% ||

En ninguna de las secuencias candidatas a ser un intrón se encontró similitud mediante el análisis de tBLASTn. Ante la falta de resultados concluyentes se decide repetir los análisis de tBLASTn pero de manera general, es decir, sin especificar el genoma de la especie contra el que queremos comparar. Este se realiza con los mismos parámetros que el análisis anterior. El resultado es idéntico, no se encuentra similitud en ninguno de los análisis. Ante la falta de resultados concluyentes nos es imposible afirmar ni desmentir nuestra hipótesis de partida, que existían intrones mal anotados.

Con los resultados obtenidos vemos como la secuencia de humanos analizada se encuentra muy conservada en especies filogenéticamente cercanas a //Polysphondylium// y a //Dictyostelium fasciculatum//, por lo que no normal sería que también se encontrasen en estos dos organismos. Por tanto podemos concluir que es probable que nuestra hipótesis de partida sea cierta y esas secuencias se hayan obviado, es decir, no se hayan tenido en cuenta como exones en trEMBL. Hemos dado como buenos los valores de E.value superiores a 0.02 ya que las especies comparadas se encuentras filogenéticamente alejadas entre sí.

3.10 Faltan datos experimentales y de estructura para poder determinar si la proteína ERCC6 también previene la ubiquitinazacion de la ARN polimerasa humana
//Aportación personal de Rafael Domínguez Acemel.//

Está descrito que Rad26 es el homólogo de levaduras de ERCC6 humano, ya que comparten similitud de secuencia y el fenotipo de las levaduras carentes de este gen es sensible a radiación ultravioleta. 9]10] En este modelo unicelular se ha descrito una relación competitiva entre Rad26 y Def1 cuando se produce un atasco de la ARN polimerasa. La primera la desatascaría y prevendría su ubiquitinización y la segunda promovería la degradación de su subunidad 2 ([|P35732] en humanos) para prevenir el secuestro de esa región del genoma. Se ha propuesto que en humanos el trastorno es más grave si la proteína se encuentra mutada que si está ausente porque ERCC6 no es capaz de desatascar la polimerasa y además impide su degradación mediada por un gen homólogo a Def17]. El principal problema es que no se ha descrito aún ninguna proteína Def1 en humanos. No se encuentran coincidencias ni por BlastP ni con tBLASTn usando como entrada el gen Def1 de //Saccharomyces cerevisiae// ([|P35732]) y como base de datos el ser humano.

La predicción de estructura de Swiss-Model de la proteína Rad26 resultó en un plegamiento muy similar al de humanos (Imagen 3), no obstante solo se obtuvo modelo de las zonas próximas a los dos dominios centrales muy conservados, en regiones que a priori no deben de ser responsables de la interacción con otras proteínas ya que tienen una función definida. Las otras zonas además presentaban una similitud menor.



La herramienta STRING tampoco nos dio constancia de ninguna interacción directa de la subunidad mayor de la ARN polimerasa II humana con ninguna proteína E3 ligasa de ubiquitina. Solo aumentando mucho la red de interacciones nos encontramos con BRCA1, un supresor tumoral afectado en casos de cáncer de mama. (Figura 14).



La comparación por matrices de puntos de la secuencia de BRCA1 y DEF1 no dio coincidencia aún con condiciones de baja exigencia (tamaño de ventana 15, identidad 70%).

Faltan por tanto datos para poder afirmar si este sistema está conservado en humanos. Vemos necesaria la determinación experimental de la estructura del gen de estudio, ya que los modelos solo otorgan información sobre los dos dominios centrales. Las zonas de interacción de nuestra proteína con la polimerasa debe de estar fuera de esta zona con bastante seguridad. La predicción de la estructura en las zonas amino y especialmente carboxilo terminal (muy conservada a pesar de no presentar ningún dominio anotado) puede darnos la clave de si ERCC6 es realmente lo suficientemente similar a Rad26 como para pensar en un sistema de regulación común. Creemos necesaria la realización de un ensayo de //Southern blot// con la secuencia de DEF1 de levaduras usando como molde el ADN humano para confirmar la no existencia de este gen. Proponemos además ensayos de doble híbrido con el gen DEF1 de levaduras y la polimerasa de humanos, así como entre DEF1 y ERCC6. También sería interesante observar las consecuencias de la expresión exógena de DEF1 de levaduras en cultivos de células humanas con mutaciones en ERCC6.

4. CONCLUSIONES
Como era de esperar aparecieron numerosos ortólogos de la proteína ERCC6 en el reino eucariota, ya que la TCR (reparación asociada a la transcripción) en la que se encuentra implicada es un sistema de reparación necesario y conservado desde antiguo. Destaca que existan numerosos ortólogos en el reino //Fungi,// lo cual puede ser de especial ayuda ya que organismos como //Saccharomyces cerevisiae// pueden ser excelentes modelos para el estudio de la enfermedad por la facilidad con la que se los puede manipular. Los árboles filogenéticos generados a partir de los alineamientos múltiples permitían, además, reproducir el proceso evolutivo eucariota.

En todos los ortólogos destaca una especial conservación de dos regiones centrales que resultaron ser dos dominios implicados en interacciones de tipo helicasa con el ADN, uno de ellos dependiente de ATP. Esto se observó tanto en las matrices de puntos como en los alineamientos múltiples. Entre los aminoácidos más conservados en los alineamientos múltiples de estos dominios que contiene la base de datos Pfam se encuentran glicinas y aminoácidos básicos (arginina y lisina). Estos parecen estar implicados en la generación de lazos de interacción con el ADN.

En cuanto a las modificaciones postraduccionales se conoce, como ya comentamos en la introducción, que CKII fosforila a la proteína desactivándola. La actividad contraria es llevada a cabo por la fosfatasa 1, inducida en condiciones de irradiación ultravioleta. //In vitro// se ha descrito que la proteína tiene las treoninas altamente fosforiladas y que en presencia de CKII aumenta la fosforilación en serinas e incluso tirosinas. Por tanto, esta activación puede que dependa de la defosforilación de más de un aminoácido.13] Se ha propuesto mediante la comparación de los motivos de alta probabilidad de ocurrencia de Prosite con los alineamientos múltiples la existencia de otros seis sitios de fosforilación no anotados aún en la ficha //Features// de Uniprot.

La estructura 3D de esta proteína aún no ha sido determinada experimentalmente. Además, la predicción por homología que recibimos de Swiss-Model no es de mucha calidad y solo comprende la región de los dos dominios conservados. Efectivamente, el modelo ofrece plegamientos independientes y en la zona externa de la proteína. No obstante, poca información más de calidad podemos encontrar aquí, al carecer del resto de regiones, especialmente de la región carboxilo terminal que estaba muy conservada. Esta región puede ser responsable de interacciones importantes o poseer funciones reguladoras.

En cuanto a si se conserva el sistema de regulación de la degradación de la subunidad mayor de la ARN polimerasa II en caso de que se atasque no hemos obtenido resultados concluyentes. Esto podría tener una relación directa con las consecuencias que provoca la mutación de la proteína estudiada. No se ha descrito aún ninguna proteína similar a Def1 de levaduras en humano, la que debería de ser antagonista de ERCC6 en la decisión entre degradar y no degradar la ARN polimerasa. Por tBLASTn no encontramos ninguna secuencia en humanos similar a la de DEF1. Además, entre las interacciones descritas de la ARN polimerasa solo existe una con actividad ubiquitín-ligasa, el conocido supresor tumoral BRCA1, y no se parece nada a Def1 ni se encuentra cercano en la red de interacciones. No se ha descrito que esta proteína ubiquitinize a la ARN polimerasa directamente. El modelo de estructura 3D de la proteína homóloga a ERCC6 en levaduras Rad26 es muy similar al de la proteína de humanos. No obstante, solo comprende la región central de los dominios conservados, impidiéndonos sacar demasiadas conclusiones. Hemos propuesto que la determinación experimental de la estructura de al menos del dominio carboxilo terminal, muy conservado, puede ser de interés. Nos parece interesante también llevar a cabo ensayos de interacción (doble híbrido por ejemplo) de la proteína Def1 de levaduras con la ARN polimerasa humana y con ERCC6; además de asegurar mediante un //Southern// la no existencia de un homólogo claro de Def1 en el genoma de humanos.

Los resultados del tBLASTn realizados para comprobar posibles fallos en la anotación de las secuencias proteicas en trEMBL de ERCC6 de Polysphondylium pallidum y //Dictyostelium fasciculatum// que pudieran haber contenido intrones en sus secuencias dieron resultados inconcluyentes que no permitían afirmar la presencia o ausencia de errores en las secuencias predichas. En cambio mediante BLASTp de las secuencias candidatas se encontraron secuencias coincidentes de organismos cercanos a //Polysphondylium pallidum// y //Dictyostelium fasciculatum// lo cual abría la puerta a la posibilidad de que determinados exones de esas secuencias se encontraran evidenciados en las secuencias proteicas predichas de trEMBL.

Con este proceso nos hemos puesto en la piel de un bioinformático y hemos analizado toda la información que hemos encontrado registrada sobre la proteína CS-B, tratando varios puntos, como su estructura 3D o su relación filogenética con proteínas homólogas en otras especies. La experiencia ha sido muy buena, y hemos aprendido qué programas usar y qué bases de datos consultar para tener en nuestra mano la información para cualquier proteína registrada. Como conclusión general de los integrantes del grupo, podemos decir que hemos comprobado el potencial de la bioinformática en campos como la biomedicina, ya que posibilita consultar datos de proteínas (sus implicaciones en el organismo, el efecto de su mal funcionamiento...) de forma rápida y accesible, y creemos que eso será esencial para tratar a los pacientes con enfermedades de índole genética de un futuro próximo.

5. BIBLIOGRAFÍA
1. www.orpha.net

2. T.C. Falik-Zaccai, M. Laskar, N. Kfir, W. Nasser, H. Slor, M. Khayat. (2008) //Cockayne syndrome type II in a Druze isolate in Northern Israel in association with an insertion mutation in ERCC6.// American Journal of Medical Genetics. 1; 146A:1423-1429.

3. C.L. Licht, Tinna Stevnser, Vilhelm A. Bohr (2003). //Cockayne syndrome group B. Cellular and biochemical functions.// American Journal of Human Genetics, 73 : 1217-1239.

4. T. Stevnsner, M. Muftuoglu, M. Diget Aamann, Vilhelm A. Bohr (2008). //The role of Cockayne Syndrome group B (CSB) protein in base excision repair and aging.// Mechanism of ageing and development, 129: 441-448.

5. A. Khobta, T. Lingg, I- Schulz, D. Warken, N. Kitsera, B. Epe (2010). //Mouse CSB protein is important for gene expression in the presence of a single-strand break in the non-transcribed DNA strand.// DNA repair, 9: 985-993.

6. K. J. Kyng, A. May, R. M. Brosh, W. Cheng, C. Chen1,K. G. Becker, V.A. Bohr (2003). //The transcriptional response after oxidative stress is defective in Cockayne syndrome group B cells.// Oncogene, 22: 1135-1149.

7. K. Horibata, Y. Iwamoto, I. Kuraoka, N. G. J. Jaspers, A. Kurimasa, M. Oshimura, M. Ichihash, K. Tanaka (2004). //Complete absence of Cockayne syndrome group B// //gene product gives rise to UV-sensitive syndrome// //but not Cockayne syndrome.// PNAS, Vol. 101, 43: 15410-15415.

8. A.D. Bailey, L.T.Gray, T. Pavelitz, J.C. Newman, K. Horibata, K. Tanaka, A.M. Weiner (2012). //The conserved Cockayne syndrome B-piggyBac fusion protein (CSB-PGBD3) affects DNA repair and induces both interferon-like and innate antiviral responses in CSB-null cells.// DNA repair, 11: 488-501.

9. A. J.van Gool, R. Verhagel, S. M.A.Swagemakers, P. van de Putte, J. Brouwer, C. Troelstra, D. Bootsma, J. H.J. Hoeijmakers (1994). //RAD26, the functional S.cerevisiae homolog of the// //Cockayne syndrome B gene ERCC6.// The EMBO Journal, Vol. 13, 22: 5361-5369.

10. E.C. Woudstra, C. Gilbert, J. Fellows, L. Jansen, J. Brouwer, H. Erdjument-Bromage, P. Tempst, J.Q. Svejstrup (2002). //A Rad26–Def1 complex coordinates repair and RNA pol II proteolysis in response to DNA damage.// Nature, 415: 929-933.

11. N. Dephoure, C. Zhoy, J. Villen, S.A. Beausoleil, C.E. Bakalarski, S.J. Elledge, S.P. Gygi (2008). //A quantitative atlas of mitotic phosphorylation.// Proc. Natl. Acad. Sci. USA, 105:10762-10767.

12. P. Rathert, A. Dhayalan, M. Murakami, R. Tamas, R. Jurkowska, Y. Komatsu, Y. Shinkai, X. Cheng, A. Jeltsch (2008). //Protein lysine methyltransferase G9a acts on non-histone targets.// Nat. Chem. Biol. 4:344-346.

13. M. Christiansen, T. Stevnsner, C. Modin C, P.M. Martensen PM, R.M. Brosh Jr. V.A. Bohr (2003). //Functional consequences of mutations in the conserved SF2 motifs and post-translational phosphorylation of the CSB protein.// Nucleic Acids Res 31:963-973.

.

.LQQLVDYLKDHQGSATTDEIMLEFKGQVSDDKAPRFKSMLHHVCDVTRGAGFTTWSLKQD ILS [2] [|OMIM #133540]