Desde hace tiempo, la complejidad del discurso científico ha sido identificada como desafiante para muchos estudiantes. Los análisis de la lingüística sistémico funcional sobre tecnicalidad y agregación de significados, que diferencian el discurso científico del cotidiano, han explicado la complejidad lingüística a la que se enfrentan los estudiantes. La complejidad de las imágenes y los ensambles de imagen-lenguaje en el discurso científico no ha sido descrita de manera similar. Dos aspectos de la construcción de significados multimodales no se han teorizado suficientemente para apoyar a las pedagogías de interpretación y creación de visualizaciones en las ciencias: 1) se ha ignorado en gran medida el rol de lo verbal dentro de las representaciones visuales científicas; 2) el análisis de imágenes ha hecho hincapié en las imágenes de estructura simple, por ejemplo narrativas, clasificatorias o analíticas, mientras que las estructuras múltiples en una sola imagen son un recurso frecuente y significativo en las ciencias. Este artículo presenta un marco en el que se describe el codespliegue de la imagen y la palabra para construir ensambles de estructura múltiple imagen-lenguaje en los libros de texto de ciencias para secundaria. Usando este marco, se describen dos investigaciones: (1) la variación entre las infografías de los libros de texto en la coarticulación imagen-lenguaje, que representa complejos de significados de fenómenos como la mitosis; (2) la relación entre la coarticulación de los recursos imagen-lenguaje y el nivel de logro en las infografías construidas por los estudiantes de secundaria. Se establecen implicancias para extender la investigación transdisciplinaria en semiótica educativa y en educación científica, y para pedagogías que promuevan el desarrollo de la literacidad disciplinar multimodal en ciencia para la escuela secundaria.